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前 言 


互联 网 产品 形形色色 ， 有 产品 导 加 的， 有 和 营销 寻 同 的 ， 也 有 技术 
导 癌 的 ， 但 是 以 技术 见长 的 互联 网 产品 比例 相对 小 些 。 搜 索引 擎 是 目 
前 互联 网 产品 中 最 具 技 术 含 量 的 产品 ， 如 末 不 是 唯一 ， 至 少 也 是 其 中 


经 过 十 几 年 的 发 展 ， 搜 索引 警 已 经 成 为 互联 网 的 重要 入 口 之 一 ， 
Twitter 联合 创始 人 埃 文 :威廉 姆 斯 所 出 了 “域名 已 死 论 > 好 记 的 域名 不 
再 重要 ， 因 为 人 们 会 通过 搜索 进入 网 站 。 搜 索引 擎 排名 对 于 中 小 网 站 
流量 来 说 至 关 重 要 。 了 解 搜索 引擎 丛 单 界面 背后 的 技术 原理 其 实 对 很 
多 人 部 很 重要 。 


为 什么 会 有 这 本 书 


最 初 写 本 搜索 引擎 技术 书籍 的 想法 萌生 于 两 年 前 ， 当 时 的 场景 是 
要 给 团队 成 员 做 搜索 技术 培训 ， 但 是 我 找 志 了 相关 图 书 ， 却 没有 发 现 
非常 合适 的 搜索 技术 入 门 书籍 。 当 时 市 面 上 的 书籍 ， 要 么 是 信息 检索 
理论 方面 的 专 着 ， 理 论 性 太 强 不 易 刷 ， 而 且 真 正 讲 搜索 引擎 技术 的 草 
PHDR; 要 么 是 Lucene 代 码 分 析 这 种 过 于 实务 的 书籍 ， 像 搜索 引 
擎 这 种 充满 算法 的 应 用 ， 直 接 分 析 开 源 系 统 代码 并 不 是 非常 高 效 的 学 
习 方 式 。 所 以 当时 萌生 了 写 一 本 有 既 通 俗 易 刷 ， 适 合 没 有 相关 技术 背景 
的 人 员 阅 读 ， 又 比较 全 面 ， 且 融入 最 新 技术 的 搜索 引 敬 书籍 ， 但 是 真 
正 动手 开始 写 是 一 年 前 的 事情 了 。 

写 书 前 我 给 目 己 定 了 儿 个 目标 。 BARBS, Smee 
索引 黎 相 关 技 术 的 主要 方面 ， 不 仅 要 包含 倒 排 索引 、 检 索 模型 和 慌 忠 
等 常见 内 容 ， 也 要 详细 讲解 链接 分 析 、 网 页 反 作 浆 、 用 户 搜 索 意 图 分 
析 、 云 存储 及 网 页 去 重 ， 甚 至 是 搜索 引擎 缓存 等 内 容 ， 这 些 都 是 一 个 
完整 搜索 引擎 的 有 机 构成 部 分 ， 但 是 详 述 其 原理 的 书籍 并 不 多 ， 我 布 
望 能 够 尽 可 能 全 面 些 。 

第 二 个 目标 十 通俗 易 届 。 我 希望 没有 任何 相关 技术 背景 的 人 也 能 
够 通过 阅读 这 本 书 有 所 收获 ， 最 好 是 不 慌 技 术 的 同学 也 能 大 臻 看 懂 。 
这 个 目标 看 似 简 单 ， 其 实 很 不 容易 达到 ， 我 也 不 敢 说 这 本 书 已 经 达到 


了 此 目的 ， 但 是 确实 已 经 尽 自 己 所 能 去 做 了 。 至 于 具体 的 措施 ， 则 包 
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一 个 是 尽 可 能 减少 数学 公式 的 出 现 次 数 ， 除 非 不 得 已 不 罗列 公 
式 。 昌 说 数学 公式 具 简 洛 之 美 ， 但 是 大 多 数 人 其 实 对 于 数学 符号 是 
慌 惧 和 逃避 心理 的 ， 多 年 前 我 也 有 类 似 心理 ， 所 以 但 凡 可 能 ， 尽 量 不 
用 数学 公式 。 

一 个 是 尽 可 能 多 举例 子 ， 尤 其 是 一 些 比 较 难 理解 的 地 方 ， 需 要 
例子 来 增进 理解 。 

还 有 一 个 是 多 画图 。 束 我 个 人 的 经 验 来 说 ， 尽 管 算法 或 者 技术 
是 很 抽象 的 ， 但 是 如 有 果 深 入 理解 其 原理 ， 去 繁 束 们 ， 那 么 一 定 可 以 把 
算法 转换 成 形象 的 图 片 。 如 有 果 不 能 在 头脑 中 形成 算法 直观 的 图 形 表 
示 ， 说 明 并 未 透彻 了 解 其 原理 。 这 是 我 判断 自己 是 否 深 入 理解 算法 的 
一 个 私有 标准 。 鉴 于 此 ， 本 书 中 在 讲解 算法 的 地 方 ， 大 量 采 用 了 算法 
原理 图 ， 全 书包 含 了 超过 300 幅 算法 原理 讲解 图 ， 相 信 这 对 于 读者 深入 
理解 算法 会 有 很 大 的 帮助 。 

第 三 个 目标 是 强调 新 现象 新 技术 ， 比 如 Google 的 咖啡 因 系 统 
Megastore 等 云 存储 系统 、Pregel 云 图 计算 模型 、 暗 网 爬 取 技术 、Web 
» 机 器 学 习 排 序 、 情 境 搜索 、 社 会 化 搜索 等 在 相关 章 万 都 

讲解 。 

第 四 个 目标 是 强调 原理 ， 不 纠缠 技术 细节 。 对 于 新 手 一 个 易 犯 
的 毛病 是 喜欢 掀 细 节 ， 只 见 树木 不 见 和 森林， 摘 明 日 了 一 个 公式 却 不 了 
解 其 背后 的 基本 思想 和 出 发 点 。 我 接触 的 技术 人 员 很 多 ， 十 有 七 八 会 
有 这 个 特点 。 这 里 有 个 “ 道 术 误 优 ?的 问题 ， 何 为 “ 道 ?? 何 为 “" 术 ”9? 举 
个 例子 的 话 ，《 和 孙子 兵法 》 是 道 ， 而 《三 十 六 计 》 则 为 术 。“ 道 ”所 
述 ， 是 宏观 的 、 原 理性 的 、 长 久 不 变 的 基本 原理 ， 而 “ 术 ” 则 是 在 遵循 
基本 原理 基础 上 的 具体 手段 和 措施 ， 有 具有 易 变 性 。 技 术 也 是 如 此 ， 算 
法 本 和 号 的 细节 是 “ 术 ”， 算 法 体现 的 基本 思想 则 是 “ 道 "， 知 “ 道 * 而 
学 “ 术 ”， 两 者 虽 不 可 偏 废 ,但 是 铬 要 选择 优先 级 的 话 ， 无 疑 我 会 选择 
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以 上 四 点 是 写 书 前 定 下 的 目标 ， 现 在 书写 完了 ， 也 许 很 多 地 方 不 
能 达到 最 初 的 期 望 ， 但 是 尽 了 力 就 好 。 写 书 的 过 程 很 茸 百 ， 起 码 比 我 
原先 想象 的 要 圣 苗 ， 因 为 工作 繁忙 ， 所 以 只 能 每 天 早早 起 床 ， 再 加 上 
周末 及 下 假日 的 时 间 来 完成 。 也 许 书 中 还 存在 这 样 那样 的 缺点 ， 但 是 
我 可 以 无 愧 地 说 写 这 本 书 是 有 诚意 的 。 


这 本 书 是 写 给 谁 的 


如 条 您 是 下 列 人 员 之 一 ， 那 么 本 书 吏 是 写 给 您 的 。 
1. 对 搜索 引擎 核心 算法 有 兴趣 的 技术 人 员 


: 搜索 引擎 的 整体 框架 是 怎样 的 ? 包含 哪些 核心 技术 ? 
网 络 候 虫 的 基本 架构 是 什么 ? 常见 的 爬 取 策略 是 什么 ? 什么 是 
ERER? 如 何 构 建 分 布 式 候 虫 ? 百度 的 阿拉 丁 计划 是 什么 ? 
什么 是 倒 排 索引 ? 如 何 对 倒 排 索引 进行 数据 压缩 ? 
- 搜索 引擎 如 何 对 搜索 结果 排序 ? 
: 什么 是 向 量 空间 模型 ? 什么 是 概率 模型 ? 什么 是 BM25 模 型 ? 
什么 是 机 器 学 习 排 序 ? 它们 之 间 有 何 异 同 ? 
PageRank 和 HITS 算 法 是 什么 关系 ?” 有 何 异 同 ? SALSA 算 法 是 
什么 ? Hilltop 算 法 又 是 什么 ? 各 种 链接 分 析 算 法 之 间 是 什么 天 系 ? 
如 何 识 别 搜索 用 户 的 真实 搜索 意图 ”用 户 搜索 目的 可 以 分 为 几 
类 ? 什么 是 点 击 图 ? 什么 是 查询 会 话 ? 相关 搜索 是 如 何 做 到 的 ? 
: 为 什么 要 对 网 页 进行 去 重 处 理 ? 如 何 对 网 页 进行 去 重 ? 哪 种 算 
法 效果 较 好 ? 
搜索 引擎 缓存 有 几 级 结构 ? 核心 策略 是 什么 ? 
什么 是 情境 搜索 ? 什么 是 社会 化 搜索 ? 什么 是 实时 搜索 ? 
搜索 引擎 有 哪些 发 展 趋势 ? 
如 果 您 对 其 中 三 个 以 上 的 问题 感 兴趣 ， 那 么 这 本 书 就 是 为 您 而 写 


2. 对 云 计 算 与 云 存储 有 兴趣 的 技术 人 员 


什么 是 CAP 原 理 ? 什么 是 ACID 原理 ? 它们 之 间 有 什么 异同 ? 

*” Google 的 整套 云 计算 框架 包含 哪些 技术 ? Hadoop 系 列 和 Google 
的 云 计算 框架 是 什么 天 系 ? 

Google 的 三 区 马车 GFS、BigTable、MapReduce 各 目 代 表 什么 含 
M? BITARAR? 

”Google 的 咖啡 因 系 统 的 基本 原理 是 什么 ? 

Google 的 Pregel 计 算 模型 和 MapReduce 计 算 模型 有 什么 区 别 ? 

Google 的 Megastore 云 存储 系统 和 BigTable 是 什么 关系 ? 


亚马逊 公司 的 Dynamo 系 统 是 什么 ? 

雅虎 公司 的 PNUTS 系 统 是 什么 ? 

Facebook 公 司 的 Haystack 存 储 系统 适合 应 用 在 什么 场合 ? 
如 果 您 对 上 述 问 题 感 兴趣 ， 相 信 可 以 从 书 中 找到 答案 。 


3. 从 事 搜索 引擎 优化 的 网 络 营销 人 员 及 中 小 网 站 站 长 
We 


on 搜索 引 警 如 何 对 搜索 结果 排序 ? 链接 分 析 和 内 容 排序 是 什么 关 


: 什么 是 内 容 农 场 ? 什么 是 链接 农场 ? 它们 是 什么 关系 ? 

什么 是 Web 2.07E RE? 有 哪些 常见 手法 ? 

: 什么 是 SpamRank? 什么 是 TrustRank? 什么 又 是 BadRank? 它 
们 是 什么 天 条 ? 

咖啡 因 系 统 对 网 页 排名 有 何 影 响 ? 

最 近 有 一 批 电 子 商 务 网 站 针对 搜索 引 警 优化， 结果 被 Google 认 为 
是 黑 巾 SEO 而 导致 搜索 排名 降 权 ， 如 何 避 免 这 种 情况 ? 从 事 相 关 行 业 
的 营销 人 员 和 网 站 站 长 应 该 深入 了 解 搜索 引擎 反 作 疼 的 基本 策略 和 方 
法 ， 甚 至 是 网 页 排名 算法 等 搜索 引擎 核心 技术 。SEO 技 术 说 到 底 其 实 
很 商 单 ， 虽 然 不 断 发 生变 化 ， 但 是 很 多 原理 性 的 策略 总 是 相似 的 ， 万 
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4. 作者 目 己 

我 的 记性 不 太 好 ， 往 往 一 段 时 间 内 了 解 的 搁 术 ， 时 隔 几 年 后 就 很 
模糊 了 ， 所 以 这 本 书 也 是 为 我 目 己 写 的 ， 以 作为 技术 备查 手册 。 沈 利 
也 参与 了 本 书 的 部 分 编写 工作 。 
致谢 


感谢 博文 视点 的 付 窒 编辑 ， 没 有 她 也 避 ® 没 有 本 书 的 面世 ， 付 编辑 
在 阅 稿 过 程 中 提出 的 细致 入 微 的 改进 点 对 我 帮助 甚大 。 


感谢 翻 开 此 书 的 读者 ， 如 有 果 您 在 阅读 本 书 的 过 程 中 发 现 一 些 丝 漏 
或 者 错误 ， 或 者 是 意见 建议 ， 布 望 您 能 够 不 音 让 我 知晓 ， 我 会 守 在 
mailjunlin@gmail.com 这 个 信箱 劳 敬 候 您 的 来 信 ， 如 采 给 我 微 博 发 信也 
非常 欢迎 http://www.weibo.com/malefactor 。 

寺 别 感谢 我 的 妻子 ， 在 近 一 年 的 写作 过 程 中 ， 我 几乎 把 能 用 的 所 
有 业余 时 间 都 投入 在 本 书 的 写作 上 ， 她 为 了 不 让 我 分 心 ， 承担 了 所 有 
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搜索 引擎 已 经 发 展 为 每 个 人 上 网 都 离 不 开 的 重要 工具 ， 但 是 为 何 
搜索 引擎 有 着 如 此 重要 的 地 位 ? 其 技术 发 展 历程 是 怎样 的 ? 其 基本 日 
标 是 什么 ? 核心 问题 又 是 什么 ? 基本 技术 架构 如 何 ? 本 章 内 容 即 给 出 
上 述 问 题 的 答案 ， 以 使 读者 对 搜索 引擎 有 个 宏观 的 理解 。 


1.1 搜索 引擎 为 何 重要 


搜索 引擎 依托 于 互联 网 ， 互 联网 的 蓬 邯 发 展 是 搜索 引擎 产品 与 技 
术 逐 步 成 熟 的 大 背景 。 离 开 互联 网 ， 搜 索引 擎 将 无 从 谈 起 。 


1.1.1 互联 网 的 发 展 


20 世 纪 90 年 代 初 期 是 互联 网 后 期 获得 大 规模 发 展 的 起 爆 点 ， 之 所 
以 如 此 ， 是 有 其 技术 背景 和 社会 背景 的 。 

1991 年 ，Tim Berners-Lee 将 超 文本 的 概念 引入 互联 网 ， 同 时 推出 了 
WWW 和 雏形 、 配 套 的 HITP 传 输 协 议 及 相应 的 Web 服务 器 技术 。1993 
年 ， 第 一 个 图 形 浏览 器 mosaic 诞 生 ， 网 页 浏览 客户 端 趋 于 成 熟 。 这 些 技 
术 与 产品 为 互联 网 的 快速 普及 和 发 展 做 好 了 技术 准备 ， 互 联网 用 户 开 
始 从 最 初 的 军队 和 高 校 等 科研 机 构 普 及 到 普通 个 人 用 户 ， 为 接 下 来 互 
联网 的 商业 化 大 规模 发 展 黄 定 了 技术 基础 。 

1992 年 美国 副 总 统 戈 尔 提 出 “信息 高 速 公 路 计划 ”原型 提案 ，1993 
年 克林顿 总 统 全 力 推动 该 计划 的 实施 ， 以 作为 振兴 美国 经 济 的 重要 增 
长 点 ， 由 此 爆发 了 互联 网 超常 规 发 展 的 黄金 十 年 ， 尽 管 2002 年 后 互联 
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1993 年 起 ， 全 球 互 联网 进入 高 速 发 展期 ，1994 年 全 球 主机 数量 首 
次 超过 300 万 台 ，1995 年 超过 600 万 台 ， 之 后 以 更 快 的 加 速度 进入 长 期 
快速 成 长 通道 ， 如 图 1-1 所 示 。 互 联网 用 户 也 是 如 此 ， 图 1-2 显 示 了 互联 
网 用 户 的 快速 增长 趋势 。 
互联 网 主机 数量 增长 情况 


300,000,000 
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图 1-1 互联 网 主机 数量 增长 情况 (1995—2009) 


互联 网 用 户 增长 情况 
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图 1-2 互联 网 用 户 增 长 情况 (1995—2010) 
1.1.2 ”商业 搜索 引擎 公司 的 发 展 
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可 分 的 。 在 互联 网 发 展 初期 ， 一 般 互 联网 用 户 最 各 用 的 应 用 仅 是 电子 
邮箱 ， 而 随 着 WWW 相 关 协 议和 产品 的 逐步 成 熟 ， 网 站 拥有 者 制作 和 发 
布 网 页 信息 的 成 本 急剧 下 降 。 而 PC 电脑 及 图 形 化 浏览 器 的 普及 ， 使 得 
普通 用 户 浏览 信息 成 本 急剧 降低 。 再 加 上 网 络 基 础 设施 的 大 量 投入 ， 
使 得 市 宽 等 不 断 加 大 。 这 几 个 因素 交互 作用 ， 寻 致 互联 网 上 的 信息 产 
生 炬 炸 性 增长 。 在 信息 量 快速 增长 的 情况 下 ， 如 何 能 够 找到 满足 用 户 
需求 的 网 页 内 容 就 日 益 成 为 越 来 越 重要 的 问题 。 信 息 增长 速度 越 快 ， 
用 户 需 求 越 迫 切 。 大 的 搜索 引 敬 公司 束 是 在 这 个 用 户 需 求 背景 下 ， 从 
Se ee eee 
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互联 网 上 的 Web 站 点 数量 首次 超过 100 万 ， 此 时 普通 用 户 已 经 无 法 依赖 
手工 浏览 的 方式 来 获得 目 己 想 要 的 信息 。 在 这 一 年 产生 了 很 多 风云 一 


时 的 早期 搜索 引 警 公司。Yahoo 、InfoSeek 、Fast Search ` AltaVista ` 
Excite 等 曾经 非常 著名 的 搜索 引擎 公司 都 创建 于 1995 年 。 

Yahoo 依 靠 人 工 编 辑 导 航 目 孙 ， 将 互联 网 上 重要 的 站 点 分 门 别 类 整 
理 好 ， 满 足 了 人 们 查找 重要 网 站 的 需求 ， 可 谓 应 时 而 生 ， 从 此 快速 成 
长 为 最 著名 的 搜索 和 门户 网 站 。 其 他 搜索 引擎 公 司 则 提供 基于 传统 信 
息 检 索 系 统 的 搜索 服务 ， 也 都 获得 了 快速 成 长 。 

随 着 互联 网 的 进一步 快速 发 展 ， 信 息 的 爆炸 性 增长 ， 已 有 的 搜索 
引擎 服务 提供 商 所 提供 的 搜索 服务 质量 并 无 大 的 改善 ， 逐 渐 不 能 满足 
用 户 的 需求 。Google 于 1998 年 成 立 ， 以 PageRank 链 接 分 析 等 新 技术 大 
幅度 提高 了 搜索 质量 ， 之 后 高 速 发 展 并 抢占 了 绝 大 多 数 搜索 引擎 市 
场 ， 成 长 为 目前 最 重要 的 互联 网 公司 之 一 。 百 上 度 则 依靠 本 地 化 优势 ， 
成 为 中 国 国 内 最 强势 的 搜索 引 警 服务 提供 商 。 尽 管 2000 年 后 陆续 有 大 
小 公司 进入 搜索 市 场 ， 但 是 无 论 从 技术 角度 还 是 市 场 份 额 角度 ， 搜 索 
市 场 格 局 并 未 发 生 太 大 变化 。 


113 ”搜索 引擎 的 重要 地 位 


搜索 引擎 已 成 为 互联 网 最 重要 的 应 用 之 一 ， 这 一 点 训 无 疑 议 ， 这 
也 是 为 何 国内 各 大 互联 网 公司 也 硕 望 切入 搜索 市 场 的 主要 原因 。 那 
么 ， 为 何 搜索 引擎 如 此 重要 ? 

正 像 前 文 所 述 ， 互 联网 信息 量 在 过 去 15 年 获得 了 爆炸 性 增长 ， 信 
轧 过 载 的 问题 就 目前 来 说 非常 严重 ， 随 着 互联 网 个 性 化 的 发 展 趋势 逐 
步 展 现 ， 普 通用 户 发 布 信息 的 成 本 越 来 越 低 ， 这 个 问题 将 会 更 加 严 
重 。 这 是 搜索 引擎 相关 应 用 越 来 越 重要 的 一 个 基础 育 景 。 搜 索 是 目前 
解决 信息 过 载 的 相对 有 效 方式 ， 在 没有 更 有 效 的 蔡 代 解决 方式 出 来 之 
前 ， 搜 索引 擎 作为 互联 网 网 站 和 应 用 的 入 口 及 处 于 行业 制高点 的 重要 
地 位 只 会 逐步 加 强 。 

尽管 不 论 国际 还 是 国内 出 现 了 一 种 新 的 现象 ， 即 成 功 的 新 互联 网 
公司 屏蔽 搜索 引擎 公司 怜 虫 ， 比 如 Facebook 对 Google 的 屏蔽 ， 国 内 电子 
商务 站 点 淘宝 对 百度 的 屏蔽 。 但 是 这 种 现象 仅仅 是 商业 公司 之 间 的 竞 
争 策 略 ， 也 可 看 做 是 垂直 搜索 和 通用 搜索 的 竞争 ， 但 并 非 搜索 应 用 与 
非 搜索 应 用 的 竞争 。 即 便 是 Facebook 和 淘宝 ， 面 对 目 己 用 户 产 生 的 海 
量 数 据 ， 依 然 要 依靠 搜索 来 为 用 户 提供 满意 的 服务 ， 区 别 仅仅 在 于 是 
目 己 来 提供 还 是 第 三 方 公司 来 提供 。 所 以 这 种 现象 并 不 能 作为 搜索 引 
擎 服务 式微 的 证 据 。 


1.2 ”搜索 引擎 技术 发 展 史 


从 搜索 引擎 所 采取 的 技术 来 说 ， 可 以 将 搜索 引擎 技术 的 发 展 划分 
为 4 个 时 代 如 图 1-3 所 示 。 
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图 1-3 “搜索 引 获 技 术 发 展 史 
1.2.1 史前 时 代 : 分 类 目录 的 一 代 


这 个 时 代 也 可 以 称 为 “导航 时 代 ”，Yahoo 和 国内 hao123 是 这 个 时 代 
的 代表 。 通 过 人 工 收集 整理 ， 把 属于 各 个 类 别 的 高 质量 网 站 或 者 网 页 
分 门 别 类 罗列， 用 户 可 以 根据 分 级 目录 来 查找 高 质量 的 网 站 。 这 种 方 
式 是 纯 人 工 的 方式 ， 并 未 采取 什么 高 深 的 技术 手段 。 

采取 分 类 目 孙 的 方式 ， 一 般 被 收 孙 的 网 站 质量 都 较 高 ， 但 是 这 种 
方式 可 扩展 性 不 强 ， 绝 大 部 分 网 站 不 能 被 收 永 。 


1.2.2 第 一 代 : 文本 检索 的 一 代 
文本 检索 的 一 代 采 用 经 典 的 信息 检索 模型 ， 比 如 布尔 模型 、 辐 量 


空间 模型 或 者 概率 模型 ， 来 计算 用 户 查 询 关 键 词 和 网 页 文本 内 容 的 相 
关 程 度 。 网 页 之 间 有 丰富 的 链接 关系 ， 而 这 一 代 搜 索引 擎 并 未 使 用 这 


些 信息 。 早 期 的 很 多 搜索 引 警 比如 AltaVista、Excite 等 大 都 采取 这 种 模 
zt o 


相 比 分 类 目录 ， 这 种 方式 可 以 收 系 大 部 分 网 页 ， 并 能 够 按照 网 页 
人 搜索 结果 质量 
\ 是 很 好 。 


1.2.3 ”第 二 代 : 链接 分 析 的 一 代 


这 一 代 的 搜索 引擎 充分 利用 了 网 页 之 间 的 链接 关系 ， 并 深入 挖掘 
和 利用 了 网 页 链接 所 代表 的 含义 。 通 种 而 言 ， 网 页 链接 代表 了 一 种 扒 
存 大 系 ， 所 以 通过 链接 分 析 可 以 在 海量 内 容 中 找 出 重要 的 网 页 。 这 种 
重要 性 本 质 上 是 对 网 页 流行 程度 的 一 种 衡量 ， 因 为 被 推荐 次 数 多 的 网 
页 其 实 代 表 了 其 具有 流行 性 。 搜 索引 擎 通过 结合 网 页 流行 性 和 内 容 相 
似 性 来 改善 搜索 质量 。 

Google 率 先 提出 并 使 用 PageRank 链 接 分 析 技 术 ， 并 大 获 成 功 ， 这 
同时 引起 了 学 术 弄 和 其 他 商业 搜索 引擎 的 天 注 。 后 来 学 术 界 陆续 提出 
了 很 多 改进 的 链接 分 析 算 法 。 目 前 儿 乎 所 有 的 商业 搜索 引擎 都 采取 了 
链接 分 析 技 术 。 

采用 链接 分 析 能 够 有 将 改善 搜索 结果 质量 ， 但 是 这 种 搜索 引擎 并 
未 考虑 用 户 的 个 性 化 要 求 ， 所 以 只 要 输入 的 碍 询 请 求 相 同 ， 所 有 用 户 
都 会 获得 相同 的 搜索 结果 。 另 外 ， 很 多 网 站 拥有 者 为 了 获得 更 高 的 搜 
索 排名 ， 针 对 链接 分 析 算 法 提出 了 不 少 链接 作 兹 方案 ， 这 样 导 致 搜索 


结果 质量 变 差 。 
1.2.4 第 三 代 : 用 户 中 心 的 一 代 


目前 的 搜索 引擎 大 都 可 以 归 入 第 三 代 ， 即 以 理解 用 户 需求 为 核 
心 。 不 同 用 户 即 使 输入 同一 个 查询 关键 词 ， 但 其 目的 也 有 可 能 不 一 
样 。 比 如 同样 输入 “苹果 ”作为 查询 词 ， 一 个 追捧 iPhone 的 时 尚 青年 和 一 
个 果农 的 目的 会 有 相当 大 的 差距 。 即 使 是 同一 个 用 户 ， 输 入 相同 的 查 
询 词 ， 也 会 因为 所 在 的 时 间 和 场合 不 同 ， 需 求 有 所 变化 。 而 目前 搜索 
引擎 大 都 致力 于 解决 如 下 问题 : 如 何 能 够 理解 用 户 发 出 的 肝 个 很 短小 
Te a a 
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为 了 能 够 获取 用 户 的 真实 需求 ， 目 前 搜索 引擎 大 都 做 了 很 多 技术 

方面 的 尝试 。 比 如 利用 用 户 发 送 查 询 词 时 的 时 间 和 地 理 位 置信 息 ， 利 


用 用 户 过 去 发 出 的 查询 词 及 相应 的 点 击 记录 等 历史 信息 等 技术 手段 ， 
来 试图 理解 用 户 此 时 此 地 的 真正 需求 。 


1.3 ”搜索 引擎 的 3 个 目标 


搜索 引擎 可 以 说 是 目前 所 有 互联 网 应 用 里 技术 含量 最 高 的 一 种 ， 
尽管 其 应 用 形式 非常 简单 : 用 户 输入 查询 词 ， 搜 索引 擎 返回 搜索 结 
果 。 但 是 要 为 以 亿 计 数 的 互联 网 用 户 提 供 准确 快速 的 搜索 结果 ， 里 面 
包含 了 很 多 技术 手段 。 总 的 来 说 ， 搜 索引 擎 技术 所 布 望 达 到 的 目标 可 
以 归纳 为 : 更 全 、 更 快 、 更 准 ， 如 图 1-4 所 示 。 


图 1-4 ”搜索 引擎 3 个 目标 


所 谓 “ 更 全 ”， 是 从 其 索引 的 网 页 数量 而 言 的 ， 目 前 任意 一 个 商业 
搜索 引擎 索引 网 页 的 覆盖 范围 都 只 占 了 互联 网 页 面 的 一 部 分 ， 可 以 通 
过 提高 网 络 爬 虫 相关 技术 来 达到 此 目标 。 

“BRIX HREF TRR A BUA IA, ECR | 
相关 技术 、 缓 存 等 技术 的 提出 都 是 直接 为 了 达到 此 目的 。 而 其 他 很 多 


技术 也 间接 为 此 服务 ， 即 使 是 分 布 式 海量 云 存储 平台 ， 也 是 为 了 能 够 
2 网 页 数据 ， 以 达到 对 “更 全 ”和 “更 快 ”这 两 个 目标 的 响应 和 支 
去 。 


在 这 3 个 目标 中 ， 如 何 使 得 搜索 结果 “更 准 ” 是 最 为 关键 的 目标 。 无 
论 是 排序 技术 也 好 ， 还 是 链接 分 析 技 术 也 好 ， 抑 或 是 用 户 研 究 等 技 
术 ， 最 终 都 是 为 了 使 搜索 结果 更 加 准确 ， 以 此 增强 用 户 体 验 。 对 于 一 
个 搜索 引擎 来 说 ， 达 到 “更 全 "与 “更 快 ? 可 以 使 其 不 落后 于 同类 产品 ， 但 
征 如 果 能 够 做 到 “更 准 "， 则 能 够 构建 核心 竞争 能 力 。 


1.4 ”搜索 引擎 的 3 个 核心 问题 


如 上 所 述 ， 搜 索引 擎 如 何 能 够 搜 得 更 准 是 其 最 重要 的 目标 ， 那 么 
如 何 才能 使 得 搜索 结果 更 准确 ? 这 里 面 涉及 了 3 个 核心 问题 。 


1.4.1 3 个 核心 问题 
1 用 户 真正 的 需求 是 什么 


搜索 引擎 用 户 输入 的 查询 请 求 非 党 简短， 查询 的 平均 长 度 是 2.7 个 
单词 。 如 何 从 如 此 短 的 查询 请 求 里 获知 隐藏 其 后 的 真实 用 户 需 求 ? 这 
征 搜索 引擎 首先 需要 解决 的 非常 重要 的 问题 。 如 采 不 能 获取 用 户 真 正 
的 搜索 意图 ， 搜 索 的 准确 性 无 从 谈 起 ， 即 使 后 续 内 容 匹配 算法 再 精巧 
也 无 济 于 事 。 

从 另外 一 个 角度 看 ， 即 使 是 同一 个 查询 词 ， 不 同 用 户 的 搜索 目的 
是 不 同 的 ， 如 何 识别 这 种 差异 ”如 果 更 进一步 ， 即 使 是 同一 个 用 户 发 
出 的 同一 个 查询 词 ， 也 可 能 因为 用 户 所 处 场景 不 同 ， 其 目的 存在 差 
异 ， 又 如 何 识 别 ? 所 有 这 些 都 是 搜索 引擎 需要 解决 的 核心 问题 ， 即 用 
尸 在 此 时 此 地 发 出 某 个 查询 ， 他 的 真实 搜索 意图 到 说 是 什么 。 


2 ”哪些 信息 是 和 用 户 需 求 真正 相关 的 


上 述 第 一 个 核心 问题 是 从 用 户 需 求 角度 出 发 的 ， 男 外 两 个 核心 问 
题 则 是 从 数据 角度 考虑 的 。 搜 索引 擎 本 质 上 有 是 一 个 匹配 过 程 ， 即 从 海 
量 数据 里 面 找到 能 够 匹配 用 户 需 求 的 内 容 。 所 以 ， 在 明确 用 户 真 实意 
如 何 找到 能 够 满足 用 户 需 求 的 信息 则 成 为 关 
pe A ZR © 


判断 内 容 和 用 户 碍 询 关 键 词 的 相关 性 ， 一 直 是 信息 检索 领域 的 核 
心 研 究 课题 ， 不 断 提 出 的 信息 检索 模型 即 在 试图 解决 这 个 问题 。 相 关 
研究 历时 近 60 年 ， 尽 管 不 断 有 新 方 法 提出 ， 检 索 效 果 总 体 而 言 也 在 逐 
步 改 进 ， 但 是 这 个 领域 的 基本 指导 思想 还 是 基于 关键 词 的 匹配 ， 包 括 
现在 所 有 搜索 引擎 的 相关 性 计算 部 分 ， 其 基本 计算 思路 和 几 十 年 前 相 
比 并 无 本 质 差 异 。 

如 何 能 够 在 这 个 核心 问题 上 有 所 突破 ? 这 个 问题 将 会 越 来 越 重 
要 ， 而 从 关键 词 匹 配 到 让 机 器 真正 理解 信息 所 代表 的 含义 是 解决 这 个 
问题 必须 迈 过 的 门框。 从 目前 来 看 ， 尽 管 包 括 人 工 智 能 在 内 的 很 多 相 
A ， 但 是 短期 内 还 未 能 看 到 解决 这 一 问题 的 清 
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3 ”哪些 信息 是 用 户 可 以 信赖 的 


搜索 本 质 上 是 找到 能 够 满足 用 户 需 求 的 信息 ， 尽 管 相关 性 是 衡量 
言 轧 是否 满足 用 户 需求 的 一 个 重要 方面 ， 但 并 非 全 部 。 信 息 是 否 值得 
信赖 是 改 外 一 个 重要 的 衡量 标准 。 

搜索 引擎 需要 处 理 的 信息 对 象 是 互联 网 上 任意 用 户 发 布 的 内 容 ， 
但 是 内 容 发 布 首 所 发 布 内 容 古 否 可 信 并 无 明确 判断 标准 。 这 其 间 存 在 
恶意 的 信息 发 布 者 故意 和 焉 曲 事实 的 情况 ， 也 有 信息 发 布 者 无 心 的 错 
误 。 在 同一 个 查询 的 搜索 结果 内 ， 完 全 可 能 存在 相互 矛盾 的 搜索 答 
案 ， 此 时 信息 的 可 信和 性 即 成 为 突出 问题 。 

比如 用 户 想 到 某 一 餐馆 束 餐 ， 在 做 出 消费 决定 前 ， 在 网 上 搜索 曾 
在 此 餐馆 就餐 的 用 户 的 过 往 评 论 ， 以 此 辅助 决策 。 而 搜索 到 的 相关 内 
容 ， 完 全 有 可 能 是 餐馆 故意 发 布 的 一 些 好 评 信息 ， 以 此 误导 消费 者 。 
人 那么 信息 的 可 信和 性 束 会 大 大 增 
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从 某 种 角度 看 ， 链 接 分 析 之 所 以 能 够 改善 搜索 结果 ， 可 以 认为 是 
对 信息 的 可 信赖 度 做 出 的 评判 。 即 将 网 页 的 重要 性 作为 是 否 可 信赖 的 
一 个 判断 标准 ， 返 回 重要 网 页 即 是 返回 可 信赖 网 页 。 


1.4.2 与 技术 发 展 的 关系 
1.3 闻 对 搜索 引 敬 技术 发 展 史 做 了 归纳 整理 ， 对 照 本 厄 提 到 的 搜索 


引擎 3 个 核心 问题 ， 可 以 看 到 不 同 历史 发 展 阶段 技术 的 不 同 侧重 点 ， 以 
及 搜索 引擎 技术 蝶 旋 式 上 升 的 发 展 趋势 ， 如 图 1-5 所 示 。 


图 1-5 不 同 发 展 时 期 的 核心 问题 


对 于 分 类 目 孙 式 搜索 引擎 ， 其 重点 关注 的 是 信息 的 可 信赖 性 ， 
为 分 类 目录 内 收录 的 网 站 经 过 人 工 精 心 筛选 ， 所 以 具有 很 强 的 可 信赖 
ee 完全 合用 户 目 由 浏览 
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对 于 第 一 代 文 本 检索 式 搜索 引擎 ， 其 重点 关注 的 是 查询 关键 词 和 
网 页 内 容 的 相关 性 。 这 种 搜索 方式 假定 用 户 输入 的 查询 关键 词 就 是 用 
户 的 真实 需求 ， 很 明显 这 种 假设 很 难 成 立 。 另 外 ， 这 种 搜索 方式 对 于 
信息 的 可 信 度 也 未 做 任何 识别 。 

第 二 代 搜 索引 擎 引入 链接 分 析 撤 术 ， 链 接 关 系 代 表 了 一 种 推荐 合 
义 ， 而 获得 越 多 推荐 的 网 页 其 链接 分 析 得 分 越 高 ， 这 其 实 是 一 种 对 网 
页 可 信 度 的 度量 标准 。 同 时 ， 第 二 代 搜 索引 擎 也 利用 了 文本 检索 模 
型 ， 来 计算 查询 和 网 页 内 容 的 相关 性 。 所 以 第 二 代 搜 索引 擎 是 综合 考 
虑 了 信息 的 相关 性 和 可 信 性 的 ， 但 是 同样 没有 对 用 户 需 求 做 关注 。 

第 三 代 搜 索引 警 的 重点 则 是 用 户 的 真实 需求 ， 其 他 方面 则 兼顾 了 
第 二 代 搜 索引 擎 的 优点 ， 即 第 三 代 搜 索引 擎 同时 考虑 了 3 个 核心 问题 。 


15 ”搜索 引擎 的 技术 架构 


作为 互联 网 应 用 中 最 具 技 术 含 量 的 应 用 之 一 ， 优 秀 的 搜索 引擎 需 
要 复杂 的 架构 和 算法 ， 以 此 来 支撑 对 海量 数据 的 获 了 到、 存储 ， 以 及 对 
用 户 和 查询 的 快速 而 准确 地 啊 应 。 本 世 主 要 从 宏观 上 介绍 搜索 引擎 的 整 
体 架 构 和 各 个 组 成 模块 的 功能 。 

从 架构 层面 ， 搜 索引 擎 需要 能 够 对 以 百 亿 计 的 海量 网 页 进行 获 
取 、 存 储 、 处 理 的 能 力 ， 同 时 要 保证 搜索 结果 的 质量 。 如 何 获取 、 存 
储 并 计算 如 此 海量 的 数据 ? 如 何 快速 啊 应 用 户 的 查询 ?如 何 使 得 搜索 
结 采 能 够 满足 用 户 的 信息 需求 ? 这 些 都 是 搜索 引擎 面 对 的 技术 挑战 。 

图 1-6 是 一 个 通用 的 搜索 引擎 架构 示意 图 。 搜 索引 擎 由 很 多 扩 术 模 


图 1-6 ”搜索 引擎 架构 

搜索 引 警 的 信息 源 来 自 于 互联 网 网 页 ， 通 过 网 络 聆 虫 将 整个 互联 

网 的 信息 获取 到 本 地 ， 因 为 互联 网 页 面 中 有 相当 大 比例 的 内 容 是 完全 
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在 此 之 后 ， 搜 索引 擎 会 对 网 页 进行 解析 ， 抽 取出 网 页 主体 内 容 ， 
以 及 页 面 中 包含 的 指向 其 他 页 面 的 链接 。 为 了 加 快 响应 用 户 查 询 的 速 
度 ， 网 页 内 容 通过 “ 倒 排 索引 ”这 种 高 效 查 询 数 据 结构 来 保存 ， 而 网 页 
之 间 的 链接 关系 也 会 予以 保存 。 之 所 以 要 保存 链接 关系 ， 是 因为 这 种 
关系 在 网 页 相关 性 排序 阶段 是 可 利用 的 ， 通 过 “链接 分 析 ” 可 以 判断 页 
面 的 相对 重要 性 ， 对 于 为 用 户 提供 准确 的 搜索 结果 帮助 很 大 。 

由 于 网 页 数量 太 多 ， 搜 索引 擎 不 仅 需 要 保存 网 页 原始 信息 ， 还 要 
存储 一 些 中 间 的 处 理 结 末 ， 使 用 单 台 或 者 少量 的 机 郝 明 显 是 不 现实 
的 。Google 等 商业 搜索 引擎 为 此 开发 了 一 整套 云 存储 与 云 计算 平台 ， 
使 用 数 以 万 计 的 普通 PC 搭建 了 海量 信息 的 可 靠 存储 与 计算 架构 ， 以 此 
作为 搜索 引擎 及 其 相关 应 用 的 基础 支撑 。 优 秀 的 云 存 储 与 云 计 算 平台 
已 经 成 为 大 型 商业 搜索 引擎 的 核心 竞争 力 。 

上 面 所 述 下 搜索 引擎 如 何 获取 并 存储 海量 的 网 页 相关 信息 ， 这 些 
功能 因为 不 需要 实时 计算 ， 所 以 可 以 被 看 做 是 搜索 引擎 的 后 台 计 算 系 
统 。 搜 索引 擎 的 最 重要 目的 是 为 用 户 提 供 准 确 全 面 的 搜索 结 末 ， 如 何 
啊 应 用 户 查 询 并 实时 地 提供 准确 结果 构成 了 搜索 引擎 前 台 计 算 系 统 。 

当 搜 索引 擎 接收 到 用 户 的 查询 词 后 ， 首 先 需 要 对 查询 词 进行 分 
析 ， 和 希望 能 够 结合 查询 词 和 用 户 信息 来 正确 推导 用 户 的 真正 搜索 意 
图 。 在 此 之 后 ， 首 移 在 缓存 中 碍 找 ， 搜 索引 擎 的 缓存 系统 存储 了 不 同 
的 查询 意 多 对 应 的 搜索 结果 ， 如 有 果 能 够 在 缓存 系统 找到 满足 用 户 需 求 
的 信息 ， 则 可 以 直接 将 搜索 结果 返回 给 用 户 ， 这 样 既 省 杯 了 重复 计算 
对 资源 的 消耗 ， 又 加 快 了 响应 速度 ; 如 果 保 存在 缓存 的 信息 无 法 满足 
用 户 需求 ， 搜 索引 擎 需要 调用 “网 页 排序 模块 功能 ， 根 据 用 户 的 查询 
实时 计算 哪些 网 页 是 满足 用 户 信息 需求 的 ， 并 排序 输出 作为 搜索 结 
果 。 而 网 页 排序 最 重要 的 两 个 参考 因素 中 ， 一 个 是 内 容 相似 性 因素 ， 
即 哪些 网 页 十 和 用 户 查 询 密 切 相 关 的 ; 男 外 一 个 是 网 页 重要 性 因 系 ， 
印 哪些 网 页 是 质量 较 好 或 者 相对 重要 的 ， 这 点 往往 可 以 从 链接 分 析 的 
结果 获得 。 结 合 以 上 两 个 考虑 因素 ， 就 可 以 对 网 页 进行 排序 ， 作 为 用 
尸 查 询 的 搜索 结 来 。 

除了 上 述 的 子 功能 模块 ， 搜 索引 擎 的 * 反 作 葬 ?模块 成 为 日 益 重 要 
的 功能 。 搜 索引 擎 作为 互联 网 用 户 的 上 网 入 口 ， 对 于 网 络 流量 的 引导 
与 分 流 盏 天 重要 ， 甚 至 可 以 说 起 了 决定 性 的 作用 。 于 是 ， 各 种 “ 作 
次 ”方式 逐渐 流行 ， 通 过 各 种 手段 将 网 页 的 搜索 排名 提 融 到 与 其 网 页 质 
量 不 相称 的 位 置 ， 这 会 庆 重 影响 用 户 的 搜索 体验 。 所 以 ， 如 何 目 动 发 
现 作 疾 网 页 并 对 其 处 瑚 ， 成 为 搜索 引擎 非 第 重要 的 组 成 部 分 。 
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通用 搜索 引擎 的 处 理 对 象 是 互联 网 网 页 ， 目 前 网 页 数量 以 百 亿 
计 ， 所 以 搜索 引擎 首先 面临 的 问题 就 是 : 如 何 能 够 设计 出 高 效 的 下 载 
系统 ， 以 将 如 此 海量 的 网 页 数据 传送 到 本 地 ， 在 本 地 形成 互联 网 网 页 
的 镜像 备份 。 

网 络 爬 虫 即 起 此 作用 ， 是 搜索 引 等 系 入 中 很 大 键 世 很 基础 的 条 
th RE BH UREA RA FR MG eK at JL PE 
的 发 展 ， 从 整体 框架 上 已 相对 成 熟 ， 但 随 着 互联 网 的 不 断 发 展 ， 也 面 
临 着 一 些 有 挑战 性 的 新 问题 。 


2.1 通用 爬虫 框架 


2 个 通用 的 爬虫 框架 流程 。 首 先 从 互联 网 页 面 中 精心 
选择 一 部 分 网 页 ， 以 这 些 网 页 的 链接 地 址 作为 种 子 URL， 将 这 些 种 子 
a 地 抓 取 UREL 队 列 中 ， 疏 虫 从 待 抓 取 UREL 队 列 依次 读 取 ， 并 将 
URL 通 过 DNS 解析 ， 把 链接 地 址 转换 为 网 站 服务 器 对 应 的 卫 地 址 。 然 
后 将 其 和 网 页 相对 路 径 名 称 交 给 网 页 下 载 器 ， 网 页 下载 器 负责 页 面向 
容 的 下 载 。 对 于 下 载 到 本 地 的 网 页 ， 一 方面 将 其 存储 到 页 面 库 中 ， 

待 建立 索引 等 后 续 处 理 ; 
队列 市 这 个 队列 记载 了 扑 虫 系统 已 经 下 载 过 的 网 页 URL， 以 避免 网 
页 的 重复 抓 取 。 对 于 刚 下 载 的 网 页 ， 从 中 抽取 出 所 包含 的 所 有 链接 信 


轧 ， 并 在 已 抓 取 URL 队 列 中 检查 ， 如 果 发 现 链接 还 没有 被 抓 取 过 ， 则 
将 这 个 URL 放 入 待 抓 取 URL 队 列 末 尾 ， 在 之 后 的 抓 取 调 度 中 会 下 载 这 
个 URL 对 应 的 网 页 。 如 此 这 般 ， 形 成 循环 ， 直 到 待 抓 取 URL 队 列 为 
空 ， 这 代表 着 爬虫 系统 已 将 能 够 抓 取 的 网 页 尽数 抓 完 ， 此 时 完成 了 一 
轮 完整 的 抓 取 过 程 。 


已 抓 职 URL 队列 待 抓 取 URL 队 列 。 “种子 URL 


图 2-1 通用 的 虫 框架 
对 于 中 虫 来 说 ， 往 往 还 需要 进行 网 页 去 重 及 网 页 反 作 浆 ， 由 于 本 
书 有 专门 章节 讲解 ， 所 以 未 在 此 处 列 出 ， 详 情 请 参考 相关 章节 。 
上 上述 是 一 个 通用 把 虫 的 整体 流程 ， 如 果 从 更 加 宏观 的 角度 考虑 ， 
处 于 动态 抓 取 过 程 中 的 腊 虫 和 互联 网 所 有 网 页 之 间 的 关系 ， 可 以 大 致 
像 如 图 2-2 所 示 那 样 ， 将 互联 网 页 面 划 分 为 5 个 部 分 : 


已 下 载 网 页 集合 : MCAS SHRM FERE A HET AR S| A 


已 过 期 网 页 集合 : ATMOS, RCN hee 
较 长 时 间 ， 在 抓 取 过 程 中 ， 很 多 已 经 下 载 的 网 页 可 能 过 期 。 之 所 以 如 
此 ， 是 因为 互联 网 网 页 处 于 不 断 的 动态 变化 过 程 中 ， 所 以 易 产 生 本 地 
网 页 内 容 和 真实 互联 网 网 页 不 一 致 的 情况 。 

待 下 载 网 页 集合 : 即 处 于 图 2-1 中 待 抓 取 URL 队 列 中 的 网 页 ， 这 
HEE by] DU BURP ME AF BK © 

”可 知 网 页 集合 : HENTAI ARIE RE, TIA TE 
抓 取 URL 队 列 中 ， 不 过 通过 已 经 抓 取 的 网 页 或 者 在 待 抓 取 URL 队 列 中 
Oo ee au ane ae 
索引 。 

不 可 知 网 页 集合 : 有 些 网 页 对 于 疏 虫 来 说 是 无 法 抓 取 到 的 ， 这 
部 分 网 页 构成 了 不 可 知 网 页 集合 。 事 实 上 ， 这 部 分 网 页 所 占 的 比例 很 
高 。 

从 理解 仆 虫 的 角度 看 ， 对 互联 网 网 页 给 出 如 上 划分 有 助 于 深入 理 
解 搜索 引擎 怜 虫 所 面临 的 主要 任务 和 挑战 。 


图 2-1 所 示 是 通用 的 扑 虫 框架 流程 ， 绝 大 多 数 仆 虫 系统 遵循 此 尝 
程 ， 但 是 并 非 意味 着 所 有 息 虫 都 如 此 一 任 。 根 据 具体 应 用 的 不 同 ， 扑 
虫 系统 在 许多 方面 存在 差异 ， 大 体 而 言 ， 可 以 将 聆 虫 划 分 为 如 下 3 种 类 


型 。 


- $B Aes (Batch Crawler) : 批量 型 候 虫 有 比较 明确 的 抓 取 
范围 和 目标 ， 当 谎 虫 达到 这 个 设 定 的 目标 后 ， 即 停止 抓 取 过 程 。 至 于 
具体 目标 可 能 各 异 ， 也 许 是 设 定 抓 取 一 定数 量 的 网 页 即 可 ， 也 许 是 设 
定 抓 取 消耗 的 时 间 等 ， 不 一 而 足 。 

- 34827784 (Incremental Crawler) : 增 量 型 候 虫 与 批量 型 息 
虫 不 同 ， 会 保持 持续 不 断 的 抓 取 ， 对 于 抓 取 到 的 网 页 ， 要 定期 更 新 ， 
因为 互联 网 网 页 处 于 不 断 变化 中 ， 新 增 网 页 、 网 页 被 删除 或 者 网 页 内 
容 更 改 都 很 常见 ， 而 增 量 型 候 虫 需要 及 时 反映 这 种 变化 ， 所 以 处 于 持 
续 不 断 的 抓 取 过 程 中 ， 不 是 在 抓 取 新 网 页 ， 就 是 在 更 新 已 有 网 页 。 通 
用 的 商业 搜索 引擎 和 候 虫 基本 都 属 此 类 。 

- EH AGH (Focused Crawler) : 垂直 型 候 虫 关注 特定 主题 内 
容 或 者 属于 特定 行业 的 网 页 ， 比 如 对 于 健康 网 站 来 说 ， 只 需要 从 互联 
网 页 面 里 找到 与 健康 相关 的 页 面 内 容 即 可 ， 其 他 行业 的 内 容 不 在 考虑 
IH] oc HAMM R—PRAN FRADE Size: 如 何 识别 网 页 内 容 是 
否 属于 指定 行业 或 者 主题 。 从 节省 系统 资源 的 角度 来 说 ， 不 太 可 能 把 
所 有 互联 网 页 面 下 载 下 来 之 后 再 去 角 选 ， 这 样 浪费 资源 就 太 过 分 了 ， 
往往 需要 疏 虫 在 抓 取 阶段 就 能 够 动态 识别 某 个 网 址 是 否 与 主题 相关 ， 
并 尽量 不 去 抓 取 无 关 页 面 ， 以 达到 和 省 资源 的 目的 。 垂 直 搜 索 网 站 或 
者 垂直 行业 网 站 往往 需要 此 种 类 型 的 爬虫 。 

本 章 主 要 讲述 增 量 型 疏 虫 ， 因 为 无 论 从 处 理 的 数据 量 上 来 讲 ， 还 
是 从 所 面临 的 技术 难度 来 讲 ， 这 种 类 型 的 把 虫 相对 而 言 都 要 复杂 一 
些 ， 当 然 ， 其 中 很 多 技术 对 于 其 他 两 种 类 型 的 朴 虫 来 说 也 是 共通 的 。 


2.2 ”优秀 爬虫 的 特性 


对 于 不 同 的 应 用 来 说 ， 息 虫 系统 实现 方式 可 能 各 异 ， 但 是 实用 的 
扑 虫 系统 都 应 该 具备 以 下 几 种 特性 。 


高 性 能 


互联 网 的 网 页 数量 庞大 如 海 ， 所 以 仆 虫 的 性 能 至 天 重要 ， 这 里 的 
性 能 主要 是 指 仆 虫 下 载 网 页 的 抓 取 速度 ， 常 见 的 评价 方式 是 以 息 虫 每 


秒 能 够 下 载 的 网 页 数量 作为 性 能 指标 ， 单 位 时 间 能 够 下 载 的 网 页 数量 
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现时 数据 结构 的 选择 很 关键 。 比 如 对 于 竺 抓 取 URL 队 列 和 已 抓 取 URL 
队列 ， 因 为 URL 数 量 非常 大 ， 不 同 实现 方式 性 能 表现 迎 异 ， 所 以 高 效 
的 数据 结构 对 于 扑 虫 性 能 影响 很 大 。 


可 扩展 性 
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很 高 ， 要 将 所 有 网 页 都 下 载 到 本 地 ， 仍 然 需要 相当 长 的 时 间 周 期 ， 为 
了 能 够 尽 可 能 缩短 抓 取 周期 ， 爬 虫 系 统 应 该 有 很 好 的 可 扩展 性 ， 即 很 
容易 通过 增加 抓 取 服 务 历 和 谎 虫 数量 来 达到 此 目的 。 

目前 实用 的 大 型 网 络 仆 虫 一 定 是 分 布 式 运行 的 ， 即 多 台 服 务 紫 专 
做 抓 取 ， 每 台 服 务 器 部 署 多 个 息 虫 ， 每 个 候 虫 多 线程 运行 ， 通 过 多 种 
方式 增加 并 发 性 。 对 于 巨型 的 搜索 引擎 服务 商 来 说 ， 可 能 还 可 在 全 球 
范围 、 不 同 地 域 分 别 部 嗜 数据 中 心 ， 怜 虫 也 被 分 配 到 不 同 的 数据 中 
心 ， 这 样 对 于 提高 怜 虫 系统 的 整体 性 能 是 很 有 帮助 的 。 


健壮 性 


疏 虫 要 访问 各 种 类 型 的 网 站 服务 右 ， 可 能 会 遇 到 很 多 种 非 正 音 情 
况 ， 比 如 网 页 HTML 编 码 不 规范 ， 被 抓 取 服务 夯 突 然 死 机 ， 甚 至 是 爬虫 
陷阱 等 。 疏 虫 对 各 种 异 音 情况 能 够 正确 处 理 非 常 重要 ， 否 则 可 能 会 不 
定期 停止 工作 ， 这 有 是 无 法 忍受 的 。 

从 另外 一 个 角度 来 讲 ， 假 设 爬 虫 程序 在 抓 取 过 程 中 死 掉 ， 或 者 疏 
虫 所 在 的 服务 凑 宕 机 ， 健 壮 的 爬虫 系统 应 该 能 够 做 到 : FUCA Be a 
时 ， 能 够 恢复 之 前 抓 取 的 内 容 和 数据 结构 ， 而 不 是 每 次 都 需要 把 所 有 
工作 完全 从 头 做 起 ， 这 也 是 爬虫 健壮 性 的 一 种 体现 。 


友好 性 
ME RAY ACHE PE Le ATT MEN: 一 是 保护 网 站 的 部 分 私密 性 ， 
另 一 是 减少 被 抓 取 网 站 的 网 络 负载 。 


疏 虫 抓 取 的 对 象 是 各 种 类 型 的 网 站 ， 对 于 网 站 拥有 者 来 说 ， 有 些 
内 容 并 不 希望 被 所 有 人 搜索 到 ， 所 以 需要 设 定 协 议 ， 来 告知 候 虫 哪些 


内 容 是 不 允许 抓 取 的 。 目 前 有 两 种 主流 的 方法 可 达 此 目的 : Me RASS 
协议 和 网 页 禁 抓 标记 。 

ee S84 YL (Robot Exclusion Protocol) 指 的 是 由 网 站 所 有 者 生 
成 一 个 指定 的 文件 robot.txt， 并 放 在 网 站 服务 器 的 根 上 日 录 下 ， 这 个 文件 
指明 了 网 站 中 哪些 目录 下 的 网 页 是 不 允许 候 虫 抓 取 的 。 具 有 友好 性 的 
仆 虫 在 抓 取 该 网 站 的 网 页 前 ， 百 先 要 读 取 robot.txt 文 件 ， 对 于 禁止 抓 取 
的 网 页 一 般 不 进行 下 载 。 

图 2-3 给 出 了 某 个 网 站 对 应 的 robot.txt 文 件 内 容 ，User-agent 字 上 段 指 
出 针对 哪个 仆 虫 ， 图 中 示例 为 Google 的 候 虫 ， 而 Disallow 字 段 则 指出 不 
允许 抓 取 的 目 隶 。 


r-agent: GoogleBot 
sallow: /tmp/ 

allow: /cgi-bin/ 
: /users/paran 


Robot. txt 
图 2-3 ”爬虫 禁 抓 协议 


谎 虫 禁 抓 协议 一 般 以 目录 为 单位 ， 即 整个 目录 下 的 网 页 或 内 容 都 
不 允许 被 抓 取 。 如 果 只 想 让 单个 网 页 不 被 抓 取 ， 该 如 何 做 呢 ? 网 页 禁 
抓 标记 (Robot META tag) 可 在 此 种 场合 派 上 用 场 。 

图 2-4 给 出 了 网 页 禁 抓 标记 的 示例 ， 即 在 网 页 的 HTML 代 码 里 加 入 
meta name=“robots” 标 记 ，content 字 上段 指 出 允许 或 者 不 允许 仆 虫 的 哪些 
行为 。 可 以 分 为 两 种 情形 ， 一 种 是 告知 候 虫 不 要 索引 该 网 页 内 容 ， 以 
noindex 作 为 标记 ; 另外 一 种 情形 是 告知 爬虫 不 要 抓 取 网 页 所 包含 的 链 
oe eae 。 通 过 这 种 方式 ， 可 以 达到 对 网 页 内 容 的 一 种 
ba a 


<meta name= -robots " content = noindex > 


情形 一 : 禁止 索引 网 页 内 容 


<meta name=“robots’content =“nofollow’”> 


情形 二 : 禁止 抓 取 网 页 链接 
图 2-4 网 页 禁 抓 标 记 


齐 循 以 上 协议 的 爬虫 可 以 被 认为 是 友好 的 ， 这 有 是 从 保护 私密 性 的 
角度 考虑 的 。 另 外 一 种 友好 性 则 是 ， 和 希望 腊 虫 对 某 网 站 的 访问 造成 的 
网 络 负 载 较 低 。 疏 虫 一 般 会 根据 网 页 的 链接 连续 获取 菜 网 站 的 网 页 ， 
如 果 拒 虫 访问 网 站 频率 过 高 ， 会 给 网 站 服务 句 造 成 很 大 的 访问 压力 ， 
有 时 候 甚 至 会 影响 网 站 的 正常 访问 ， 造 成 类 似 DOS 攻 击 的 效 末 ， 所 以 
为 了 减少 网 站 的 网 络 负 载 ， 友 好 性 的 爬虫 应 该 在 抓 取舍 略 部 车 时 考虑 
每 个 被 抓 取 网 站 的 负载 ， 在 尽 可 能 不 影响 爬虫 性 能 的 情况 下 ， 减 少 对 
单一 站 点 短期 内 的 高 频 访问 。 


2.3 (RE RTE OMe 
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果 有 不 同 的 评价 标准 ， 其 中 最 主要 的 3 个 标准 是 ， 抓 取 网 页 覆盖 率 、 抓 
取 网 页 时 新 性 及 抓 取 网 页 重要 人 性。 如 果 这 3 个 方面 做 得 好 ， 则 搜索 引擎 
用 户 体验 必 佳 。 

图 2-5 展 示 的 是 一 个 抽象 的 互联 网 网 页 与 搜索 引 警 息 虫 抓 取 网 页 的 
对 比 图 ， 对 于 现 有 的 搜索 引擎 来 说 ， 还 不 存在 哪个 搜索 引 敬 有 能 力 将 


互联 网 上 出 现 的 所 有 网 页 都 下 载 并 建立 索引 的 ， 所 有 搜索 引擎 只 能 索 
引 互 联网 的 一 部 分 ， 而 所 谓 的 抓 取 网 页 履 盖 率 指 的 是 爬虫 抓 取 的 网 页 
数量 占 互 联网 所 有 网 页 数量 的 比例 ， 图 中 所 示 互 联网 有 5 个 网 页 ， 而 的 
虫 系统 抓 取 了 其 中 的 3 个 。 履 盖 率 越 高 ， 等 价 于 搜索 引擎 的 召回 率 越 
高 ， 用 户 体验 也 越 好 。 


图 2-5 ”索引 网 页 和 互联 网 网 页 对 比 


对 于 疏 虫 抓 到 本 地 的 网 页 来 说 ， 很 多 网 页 可 能 已 经 发 生变 化 ,或 
者 被 删除 ， 或 者 内 容 被 更 改 ， 因 为 疏 虫 完整 抓 取 一 轮 需要 较 长 的 时 间 
周期 ， 所 以 抓 取 到 的 网 页 中 必 有 一 部 分 是 过 期 的 数据 ， 即 不 能 在 网 页 
变化 后 第 一 时 间 反 映 到 网 页 库 中 ， 所 以 网 页 库 中 过 期 的 数据 越 少 ， 则 
网 页 的 时 新 性 越 好 ， 这 对 用 户 体验 的 作用 不 言 而 喻 。 如 果 时 新 性 不 
好 ， 用 户 搜 到 的 是 过 时 数据 ， 其 至 可 能 网 页 都 已 不 复 存在 ， 使 用 产品 
时 其 心情 如 何 可 想 而 知 。 

互联 网 尽管 网 页 众多 ， 但 是 每 个 网 页 重要 性 差异 很 大 ， 比 如 来 自 
雅虎 新 闻 的 网 页 和 某 个 作 疯 网 页 相 比 ， 其 重要 性 差异 判 若 云 泥 。 如 果 
搜索 引擎 候 虫 抓 回 的 网 页 大 都 是 比较 重要 的 网 页 ， 则 可 说 其 在 抓 取 网 
页 重要 性 方面 做 得 很 好 。 这 方面 做 得 好 ， 等 价 于 搜索 引擎 的 搜索 精度 


[可 


通盘 考虑 以 上 3 个 因素 ， 可 以 将 目前 爬虫 研发 的 目标 简单 换 述 如 
下 : 在 资源 有 限 的 情况 下 ， 既 然 搜 索引 擎 只 能 抓 取 互联 网 现存 网 页 的 
一 部 分 ， 那 么 就 尽 可 能 选择 比较 重要 的 那 部 分 页 面 来 索引 ; 对 于 已 经 
抓 取 到 的 网 页 ， 尽 可 能 快 地 更 新 其 内 容 ， 使 得 索引 网 页 和 互联 网 对 应 
页 面 内 容 同 步 更 新 ;在 此 基础 上 ， 尽 可 能 扩大 抓 取 范 围 ， 抓 取 到 更 多 
以 前 无 法 发 现 的 网 页 。3 个 “ 尽 可 能 ”基本 说 清楚 了 爬 虫 系统 为 增强 用 户 
体验 而 奋斗 的 目标 。 


大 型 商业 搜索 引擎 为 了 满足 以 上 3 个 质量 标准 ， 大 都 开发 了 多 套 针 
对 性 很 强 的 爬虫 系统 。 以 Google 为 例 ， 如 图 2-6 所 示 ， 其 至 少 包 含 两 套 
不 同 目 的 的 假 虫 系统 ， 一 套 被 称 为 Fresh Bot， 主 要 考虑 网 页 的 时 新 
性 ， 对 于 内 容 更 新 频繁 的 网 页 ， 目 前 可 以 达到 以 秒 计 的 更 新 周期 ， 而 
另外 一 套 被 称 之 为 Deep Crawl Bot， 主 要 针对 其 他 更 新 不 是 那么 频繁 的 
网 页 抓 取 ， 以 天 为 更 新 周期 。 除 此 之 外 ，Google 投 入 了 很 大 精力 研发 
针对 暗 网 的 抓 取 系统 ， 本 章 后 续 小 节 会 述 及 此 面 。 


图 2-6 Google MERA 


本 章 后 续 内 容 会 重点 介绍 以 下 4 个 方面 的 技术 : 抓 取 策 略 、 网 页 更 
新 策略 、 上 暗 网 抓 取 和 分 布 式 候 虫 。 之 所 以 如 此 安排 ,因为 这 几 项 技术 
是 看 虫 系统 中 至 关 重 要 的 组 成 部 分 ， FEAR FE T MC ASA I Se AE 
He ° 
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虑 ， 后 续 章 节 将 陆续 介绍 这 4 个 方面 的 关键 技术 。 


2.4 PBR 


在 爬虫 系统 中 ， 待 抓 取 URL 队 列 是 很 关键 的 部 分 ， 需 要 让 虫 抓 取 
的 网 页 URL 在 其 中 顺序 排列 ， 形 成 一 个 队列 结构 ， 调 度 程序 每 次 从 队 
列 头 取出 某 个 URL， 发 送 给 网 页 下 载 器 下 载 页 面 内 容 ， 每 个 新 下 载 的 
页 面包 含 的 UREL 会 追加 到 符 抓 取 UREL 队 列 的 来 尾 ， 如 此 形成 循环 ， 整 
个 疏 虫 系统 可 以 说 是 由 这 个 队列 张 动 运转 的 。 

待 抓 取 URL 队 列 中 的 页 面 UREL 顺 序 是 如 何 确 定 的 ?上面 所 述 将 新 
下 载 页 面 中 包含 的 链接 追加 到 队列 尾部 ， 这 固然 是 一 种 确定 队列 URL 
顺序 的 方法 ,但 并 非 唯 一 的 手段 ， 事 实 上 ， 还 可 以 采纳 很 多 其 他 技 
术 ， 将 队列 中 每 抓 取 的 URL 进 行 排 友 。 而 扑 虫 的 不 同 抓 取 策略 ， 束 是 
利用 不 同 的 方法 来 确定 签 抓 取 URL 队 列 中 URL 优 先 顺序 的 。 

候 虫 的 抓 取 策略 有 很 多 种 ， 但 不 论 方法 如 何 ， 其 基本 目标 一 致 : 
优先 选 择 重 要 网 页 进行 抓 取 。 在 让 虫 系统 中 ， 所 谓 网 页 的 重要 性 ， 其 
评判 标准 可 以 选择 不 同方 法 ， 但 是 大 部 分 都 是 按照 网 页 的 流行 性 来 定 
义 的 ， 在 本 书 的 “链接 分 析 ” 一 章 介绍 的 PageRank 束 是 评价 网 页 重要 性 
的 常用 标准 。 

抓 取 蛇 略 方法 众多 ， 本 世 只 选择 已 经 被 证 明 效 果 较 好 或 者 是 比较 
有 代表 性 的 解决 方案 ， 包 括 以 下 4 种 : EELEE RK ` JEZE 
PageRank Ri% ` OCIP RIE RAVE TETRIS o 


2.4.1 ”宽度 优先 遍历 策略 (Breath First) 


宽度 优先 遍历 是 一 种 非常 简单 直观 且 历 史 也 很 悠久 的 遍历 方法 ， 
在 搜索 引擎 爬虫 一 出 现 就 开始 采用 ， 新 提出 的 抓 取 策略 往往 会 将 这 种 
方法 作为 比较 基准 。 但 应 该 注意 到 的 是 ， 这 种 策略 也 是 一 种 相当 强悍 
的 方法 ， 很 多 新 方法 实际 效果 不 见得 比 宽度 优先 遍历 策略 好 ， 所 以 至 
今 这 种 方法 也 是 很 多 实际 爬虫 系统 优先 采用 的 抓 取 策 略 。 

那么 ， 什 么 是 宽度 优先 遍历 呢 ? 其 实 上 文 所 说 的 “将 新 下 载 网 页 包 
含 的 链接 直接 追加 到 待 抓 取 URL 队 列 末尾 "， 这 就 是 宽度 优先 遍历 的 思 
想 。 也 就 是 说 ， 这 种 方法 并 没有 明确 提出 和 使 用 网 页 重要 性 衡量 标 
准 ， 只 是 机 械 地 将 新 下 载 的 网 页 抽取 链接 ， 并 追加 到 待 抓 取 URL 队 列 
中 ， 以 此 安排 UREL 的 下 载 顺 序 。 图 2-7 是 这 种 策略 的 示意 图 : 假设 队列 
头 的 网 页 是 1 号 网 页 ， 从 1 号 网 页 中 抽取 出 3 个 链接 指 癌 2 号 、3 号 和 4 号 
网 页 ， 于 是 按照 编号 顺序 依次 放 入 待 抓 取 URL 队 列 ， 图 中 网 页 的 编号 
人 之 后 爬虫 以 此 顺序 进 
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待 抓 取 URL 队 列 


图 2-7 宽度 优先 遍历 策略 
实验 表明 这 种 策略 效 灯 很 好 ， 虽 然 看 似 机 械 ， 但 实际 上 的 网 页 抓 


取 顺 序 基 本 是 按照 网 页 的 重要 性 排序 的 。 之 所 以 如 此 ， 有 研究 人 员 认 
为 : 如 采 某 个 网 页 包含 很 多 入 链 ， 那 么 更 有 可 能 被 宽度 优先 避 历 策略 
早早 抓 到 ， 而 入 链 个 数 从 侧面 体现 了 网 页 的 重要 性 ， 即 实际 上 宽度 优 
先 志 历 策略 隐 含 了 一 些 网 页 优先 级 假设 。 


2.4.2 ” 非 完 全 PageRank 策 略 (Partial PageRank) 


PageRank 是 一 种 著名 的 链接 分 析 算 法 ， 可 以 用 来 衡量 网 页 的 重要 
性 (技术 细节 请 参考 本 书 “ 链 接 分 析 ” 一 章 ) 。 很 自然 地 ， 可 以 想到 用 
PageRank 的 思想 来 对 URL 优 先 级 进行 排序 。 但 是 这 里 有 个 问题 ， 
PageRank 是 个 全 局 性 算法 ， 也 就 是 说 当 所 有 网 页 都 下 载 完 成 后 ， 其 计 
算 结 采 才 是 可 靠 的 ， 而 仆 虫 的 目的 就 是 去 下 载 网 页 ， 在 运行 过 程 中 只 
能 看 到 一 部 分 页 面 ， 所 以 在 抓 取 阶 段 的 网 页 是 无 法 获得 可 靠 PageRank 
得 分 的 。 

如 果 我 们 仍然 坚持 在 这 个 不 完整 的 互联 网 页 面子 集 内 计算 
PageRank 呢 ?这 就 是 非 完 全 PageRank 策 略 的 基本 思路 : 对 于 已 经 下 载 
的 网 页 ， 加 上 待 抓 取 UREL 队 列 中 的 URL 一 起 ， 形 成 网 页 集合 ， 在 此 集 
合 内 进行 PageRank 计 算 ， 计 算 完 成 后 ， 将 竺 抓 取 URL 队 列 里 的 网 页 按 


有 眼 PageRank 得 分 由 高 到 低 排 序 ， 形 成 的 序列 就 是 仆 虫 接 下 来 应 该 依次 
抓 取 的 URL 列 表 。 这 也 是 为 何 称 之 为 “ 非 完 全 PageRank” 的 原因 。 

如 果 每 次 新 抓 取 到 一 个 网 页 ， 就 将 所 有 已 经 下 载 的 网 页 重新 计算 
新 的 非 完 全 PageRank 值 ， 明 显效 率 太 低 ， 在 现实 中 是 不 可 行 的 。 一 个 
折 中 的 办 法 是 : 每 当 新 下 载 的 网 页 攒 够 K 个 ， 然 后 将 所 有 下 载 页 面 重新 
计算 一 裔 新 的 非 完 全 PageRank。 这 样 的 计算 效率 还 钢 强 能 够 接受 ， 但 
是 又 引 来 了 新 的 问题 : 在 展开 下 一 轮 PageRank 计 算 之 前 ， 从 新 下 载 的 
网 页 抽取 出 包含 的 链接 ， 很 有 可 能 这 些 链接 的 重要 性 非常 高 ， 理 应 优 
先 下 载 ， 这 种 情况 该 如 何 解 决 ? 非 完 全 PageRank 赋 予 这 些 新 抽取 出 来 
但 是 又 没有 PageRank 值 的 网 页 一 个 临时 PageRank 值 ， 将 这 个 网 页 的 所 
有 入 链 传导 的 PageRank 值 汇总 ， 作 为 临时 PageRank 值 ， 如 果 这 个 值 比 
待 抓 取 URL 队 列 中 已 经 计算 出 来 PageRank 值 的 网 页 高 ， 那 么 优先 下 载 
这 个 URL ° 

图 2-8 是 非 完 全 PageRank 策 略 的 一 个 简略 示意 图 。 我 们 设 定 每 下 载 
3 个 网 页 即 进行 新 的 PageRank 计 算 ， 此 时 已 经 有 {Pl1，P2，P3}3 个 网 页 
下 载 到 本 地 ， 这 3 个 网 页 包含 的 链接 指 回 {P4，P5，P6}， 形 成 了 待 抓 取 
URL 队 列 ， 如 何 决定 其 下 载 顺 序 ? 将 这 6 个 网 页 形成 新 的 集合 ， 对 这 个 
集合 计算 PageRank 值 ， 这 样 P4、P5 和 P6 就 获得 自己 对 应 的 PageRank 
值 ， 由 大 到 小 排序 ， 即 可 得 出 其 下 载 顺 序 。 这 里 可 以 假设 顺序 为 : 
P5、P4、P6， 当 下 载 P5 页 面 后 抽取 出 链接 ， 指 癌 页 面 PB8， 此 时 赋予 P8 
临时 PageRank 值 ， 如 果 这 个 值 大 于 P4 和 P6 的 PageRank， 则 接 下 来 优先 
下 载 PB8。 如 此 不 断 循 环 ， 即 形成 了 非 完 全 PageRank 策 略 的 计算 思路 。 


互联 网 
图 2-8” 非 完全 PageRank 策 略 


非 完全 PageRank 看 上 去 相对 复杂 ， 那 么 是 否 效果 一 定 优 于 简单 的 
宽度 优 移 过 历 策略 呢 ? 不 同 的 实验 结果 存在 和 争议， 有 些 表 明 非 完全 
PageRank 结 果 略 优 ， 有 些 实验 结果 结论 则 恰恰 相反 。 更 有 研究 人 员 指 
出 : 非 完 全 PageRank 计 算得 出 的 重要 性 与 完整 的 PageRank 计 算 结 有 果 差 
异 很 大 ， 不 应 作为 衡量 抓 取 过 程 中 URL 重 要 性 计算 的 依据 。 


2.4.3 ”OCIP 策 略 (Online Page Importance Computation) 


OCIP 的 字面 含义 是 “在 线 页 面 重要 性 计算 ”， 可 以 将 其 看 做 是 一 种 
改进 的 PageRank 算 法 。 在 算法 开始 之 前 ， 每 个 互联 网 页 面 都 给 予 相同 
的 “现金 ”(cash) ， 每 当下 载 了 某 个 页 面 P 后 ，P 将 自己 拥有 的 “现金 " 平 
均 分 配给 页 面 中 包含 的 链接 页 面 ， 把 自己 的 “现金 ?清空 。 而 对 于 待 抓 
取 URL 队 列 中 的 网 页 ， 则 根据 其 手头 拥有 的 现金 金额 多 少 排序 ， 优 先 
下 载 现 金 最 充裕 的 网 页 。OCIP 从 大 的 框架 上 与 PageRank 思 路 基本 一 
致 ， 区 别 在 于 : PageRank 每 次 需要 迭代 计算 ， 而 OCIP 策 略 不 需要 迭代 
过 程 ， 所 以 计算 速度 远 远 快 于 PageRank， 适 合 实时 计算 使 用 。 同 时 ， 


PageRank 在 计算 有 时， 存在 癌 无 链接 关系 网 页 的 远程 跳 轩 过程， 而 OCIP 
没有 这 一 计算 因子 。 实 验 结 采 表明 ，OCIP 是 种 较 好 的 重要 性 衡量 倘 
略 ， 效 采 略 优 于 宽度 优先 裔 历 策 略 。 


2.4.4 ”大 站 优先 策略 (Larger Sites First) 


大 站 优先 策略 思路 很 直接 : 以 网 站 为 单位 来 衡量 网 页 重要 性 ， 对 
于 待 抓 取 URL 队 列 中 的 网 页 ， 根 据 所 属 网 站 归 类 ， 如 采 哪 个 网 站 等 待 
下 载 的 页 面 最 多 ， 则 优先 下 载 这 些 链接 。 其 本 质 思 想 倾向 于 优先 下 载 
大 型 网 站 ， 因 为 大 型 网 站 往往 包 仿 更 多 的 页 面 。 鉴 于 大 型 网 站 往往 是 
著名 企业 的 内 容 ， 其 网 页 质量 一 般 较 高 ， 所 以 这 个 思路 虽然 简单 ， 但 
和 
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2.5 ”网 页 更 新 策略 


互联 网 的 动态 性 是 其 显著 特征 ， 随 时 都 有 新 出 现 的 页 面 ， 页 面 的 
Al Ee Ae BEN BM a AR OR FETE AY) OU TE BH Bo NT PM OR, FABRE 
抓 取 到 本 地 就 算 完 成 任务 ， 也 要 体现 出 互联 网 的 这 种 动态 性 。 本 地 下 
载 的 网 页 可 被 看 做 是 互联 网 页 面 的 “镜像 ”， 疏 虫 要 尽 可 能 傈 证 其 一 至 
性 。 可 以 假设 一 种 情况 ， 茶 个 网 页 已 被 删除 或 者 内 容 做 出 重大 变动 ， 
而 搜索 引 敬 对 此 届 然 无 知 ， 仍 然 按 其 旧 有 内 容 排 序 ， 将 其 作为 搜索 结 
果 提 供给 用 户 ， 其 用 户 体验 之 精 粽 不 诗 而 喻 。 所 以 ， 对 于 已 经 抓 取 过 
的 网 页 ， 疏 虫 还 要 负责 保持 其 内 容 和 互联 网 页 面 内 容 的 同步 ， 这 取决 
TERRA A E DTR ° 

PA DL E Ir RER BHE B ee BR E M T MZ RT E E PF a 
页 ， 以 尽 可 能 使 得 本 地 下 载 网 页 和 互联 网 原始 页 面 内 容 保持 一 致 。 常 
0 
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25.1 历史 参考 策略 


历史 参考 策略 是 最 直观 的 一 种 更 新 策略 ， 它 建立 于 如 下 假设 之 
E: 过 去 频繁 更 新 的 网 页 ， 那 么 将 来 也 会 频繁 更 狐 。 所 以 ， 为 了 预 们 
某 个 网 页 何 时 进行 更 新 ， 可 以 通过 参考 其 历史 更 新 情况 来 做 出 决定 。 

这 种 方法 往往 利用 泊 松 过 程 来 对 网 页 的 变化 进行 建 模 ， 根 据 每 个 
网 页 过 去 的 变动 情况 ， 利 用 模型 预测 将 来 何 时 内 容 会 再 次 发 生变 化 ， 


以 此 来 指导 爬虫 的 抓 取 过 程 。 但 是 不 同方 法 侧重 不 尽 相 同 ， 比 如 有 的 
研究 将 一 个 网 页 划分 成 不 同 的 区 域 ， 抓 取 宋 略 应 该 忽略 挥 广告 栏 或 者 
人 而 集中 在 主题 内 容 的 变化 探测 和 
建 模 上 。 


2.5.2 用户 体验 策略 


一 般 来 说 ， 搜 索引 苟 用 户 提交 查询 后 ， 相 关 的 搜索 结果 可 能 成 二 
上 万， 而 用 户 没 有 了 耐心 查看 排 在 后 面 的 搜索 结果 ， 往 往 只 查看 前 3 页 搜 
。 用 户 体验 策略 就 古 利用 搜索 引擎 用 户 的 这 个 特点 来 设计 更 新 

HHY 。 

这 种 更 新 策略 以 用 户 体验 为 核心 ， 即 使 本 地 索引 的 网 页 内 容 是 过 
时 的 ， 但 是 如 果 不 影响 用 户 体验 ， 那 么 晚 些 更 新 这 些 过 时 网 页 也 未 学 
不 可 。 所 以 判断 一 个 网 页 何 时 更 新 为 好 ， 取 决 于 这 个 网 页 的 内 容 变 化 
所 带 来 搜索 质量 的 变化 (往往 采用 搜索 结果 排名 的 变化 来 衡量 ， 影 
啊 越 大 的 网 页 ， 则 应 该 越 快 更 新 。 

用 户 体 难 千 略 保存 网 页 的 多 个 历史 和 版本， 并 根据 过 去 每 次 内 容 变 
化 对 搜索 质量 的 影响 ， 得 出 一 个 平均 值 ， 以 此 作为 判断 爬虫 重 抓 该 网 
有 对 于 影响 越 厉害 的 网 页 ， 则 越 优 先 调 度 重新 抓 
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2.5.3” 诊 类 抽样 策略 


上 面 介绍 的 两 种 网 页 更 新 策略 严重 依赖 网 页 的 历史 更 新 信息 ， 
为 这 征 能 够 进行 后 续 计 算 的 基础 。 但 是 在 现实 中 ， 为 每 个 网 页 傈 存 其 
历史 信息 ， 搜 索 系 统 会 大 量 增加 额外 人 负担。 从 为 外 一 个 角度 考虑 ， 如 
和 革 是 首次 抓 取 到 的 网 页 ， 因 为 没有 历史 信息 ， 所 以 也 束 无 法 按照 这 两 
We 0 。 聚 类 抽样 策略 即 是 为 了 解决 上 述 缺 点 而 拓 


案 类 抽样 策略 认为 ， 网 页 具有 一 些 属性 ， 根 据 这 些 属性 可 以 预测 
其 更 新 周期 ， 具 有 相似 属性 的 网 页 ， 其 更 新 周期 也 是 类 似 的 。 于 是 ， 
可 以 根据 这 些 属性 将 网 页 归 类 ， 同 一 类 别 内 的 网 页 具有 相同 的 更 新 频 
率 。 为 了 计算 某 个 类 别 的 更 新 周期 ， 只 需 对 类 别 内 网 页 进行 采样 ， 以 
这 些 被 采样 网 页 的 更 新 周期 作为 类 别 内 所 有 其 他 网 页 的 更 新 周期 。 与 
之 前 客 述 的 两 种 方法 相 比 较 ， 这 种 策略 一 方面 无 须 为 每 个 网 页 祭 存 历 
史 信 息 ; 男 一 方面 ， 对 于 新 网 页 ， 即 使 没有 历史 信息 ， 也 可 以 根据 其 
所 属 类 别 来 对 其 进行 更 新 。 


聚 类 抽样 策略 基本 流程 如 图 2-9 所 示 ， 首 移 根 据 网 页 所 表现 出 的 特 
征 ， 将 其 聚 类 成 不 同 的 类 别 ， 每 个 类 别 内 的 网 页 具有 相似 的 更 新 周 
期 。 从 类 别 中 抽取 一 部 分 最 有 代表 性 的 网 页 (一 般 抽 取 最 靠近 类 中 心 
的 那些 网 页 ， 对 这 些 网 页 计算 其 更 新 周期 ， 那 么 这 个 更 新 周期 适用 
| 


图 2-9” 育 类 抽样 策略 


在 Tan 等 人 的 研究 中 ， 将 能 够 体现 网 页 更 新 周期 的 属性 特征 划分 为 
两 大 类 : 静态 特征 和 动态 特征 。 静 仿 特 征 包括 : 页 面 的 内 容 、 图 片 数 
量 、 页 面 大 小 、 链 接 深度 、PageRank 值 等 十 几 种 ;而 动态 特征 则 体现 


了 静态 特征 随 着 时 间 的 变化 情况 ， 比 如 图 片 数量 的 变化 情况 、 入 链 出 
链 的 变化 情况 等 。 根 据 这 两 类 特征 ， 即 可 对 网 页 进行 聚 类 。 

图 2-9 所 示 为 一 个 较为 通用 的 流程 ， 不 同 算法 在 细 市 处 有 差异 。 比 
WA EA BANA IA TGR, Me LAREN RSS ie, BIR 
设 属于 同一 个 网 站 的 网 页 具有 相同 的 更 狐 周 期 ， 对 网 站 内 页 面 进 行 抽 
样 ， 计 算 其 更 新 频率 ， 之 后 网 站 内 所 有 网 页 以 这 个 更 新 周期 为 准 。 这 
个 假设 虽 显 粗糙 ， 因 为 很 明显 同一 网 站 内 网 页 更 狐 频 率 差 异 很 大 ， 但 
是 可 以 省 掉 聚 类 这 个 步 又， 在 计算 效率 方面 会 更 可 行 些 。 

相关 实验 表明 ， 聚 类 抽样 策略 效果 好 于 前 述 两 种 更 新 策略 ， 但 十 
对 以 亿 计 的 网 页 进行 聚 类 ， 其 难度 也 是 非常 巨大 的 。 


2.6 ŠRI (Deep Web Crawling) 


物理 学 研究 表明 ， 在 目前 宇宙 所 有 物质 的 总 体质 量 中 ， 星 系 等 可 
见 物质 只 占 其 中 的 202% ， 不 可 探测 的 暗物质 则 占据 了 总 质量 的 大 约 
8026。 互 联网 中 的 瞳 网 可 与 宇宙 中 的 暗物质 相 类 比 ， 而 其 所 占 网 页 的 
比例 ， 更 是 远大 于 暗物质 占 字 宙 质 量 的 比例 ， 大 约 百倍 于 目前 的 明 网 

(Surfacing Web) 网 页 。 

所 请 暗 网 ， 是 指 目 前 搜索 引擎 爬虫 按照 音 规 方式 很 难 抓 取 到 的 互 
联网 页 面 。 如 前 所 述 ， 搜 索引 擎 爬虫 依赖 页 面 中 的 链接 关系 发 现 新 的 
页 面 ， 但 是 很 多 网 站 的 内 容 是 以 数据 库 方 式 存 储 的 ， 典 型 的 例子 是 一 
些 垂直 领域 网 站 ， 比 如 携程 旅行 网 的 机 票数 据 ， 很 难 有 显 式 链接 指 回 
数据 库 内 的 记录 ， 人 往往 是 服务 网 站 提供 组 合 查 询 界面 ， 只 有 用 户 按 照 
需求 输入 查询 之 后 ， 才 可 能 获得 相关 数据 。 所 以 ， 常 规 的 爬虫 无 法 索 
引 这 些 数 据 内 容 ， 这 是 上 暗 网 的 命名 由 来 。 图 2-10 是 携程 旅行 网 的 机 票 搜 
索 界面 和 当当 网 的 图 书 搜索 界面 。 
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图 2-10 ”携程 的 机 票 搜索 界面 和 当当 网 的 图 书 搜索 界面 


为 了 能 够 对 暗 网 数据 进行 索引 ， 和 需要 研发 与 常规 假 虫 机 制 不 同 的 
系统 ， 这 类 疏 虫 被 称 做 上 暗 网 爬虫 。 蜡 网 爬虫 的 目的 是 将 上 暗 网 数据 从 数 
据 库 中 挖掘 出 来 ， 并 将 其 加 入 搜索 引擎 的 索引 ， 这 样 用 户 在 搜索 时 便 
可 利用 这 些 数据 ， 增 加 信息 履 盖 程 度 。 

目前 大 型 搜索 引擎 服务 提供 商都 将 暗 网 控 气 作为 重要 研究 方向 ， 
因为 这 直接 关系 到 索引 量 的 大 小 。 在 此 领域 的 技术 差异 ， 将 直接 体现 
在 搜索 结 玉 的 全 面 性 上 ， 目 然 古 苋 争 对 手 之 间 的 必 和 争 之 地 。Google 目 
前 将 其 作为 重点 研发 方向 ， 而 百度 的 “阿拉 丁 计划 ”目的 也 在 于 此 。 

垩 直 网 站 提供 的 搜索 界面 ， 往 往 需 要 人 工 选 择 或 者 填写 内 容 ， 比 
如 机 票 搜索 需要 选择 出 发 地 、 到 达 地 和 日 期 ， 图 书 搜索 需要 指出 书 名 
或 者 作者 。 而 瞳 网 息 虫 为 了 能 够 控 气 数据库 的 记录 ， 必 须 模拟 人 的 行 
为 ， 填 写 内 容 并 提交 表单 。 对 于 暗 网 爬虫 来 说 ， 其 技术 挑战 有 两 点 : 
一 古 查 询 组 合 太 多 ， 如 采 一 一 组 合 裔 历 ， 那 么 会 给 被 访问 网 站 造成 太 
大 压力 ， 所 以 如 何 精心 组 合 碍 询 选 项 是 个 难点 ;第 二 点 在 于 : BNE 
询 是 文本 框 ， 比 如 图 书 搜索 中 需要 输入 书 名 ， 扑 虫 怎 样 才 能 够 填 入 合 
适 的 内 容 ? 这 个 也 顾 具 挑战 性 。 


26.1 查询 组 合 问题 


音 网 爬虫 希望 能 够 将 某 个 垂直 网 站 数据 库 的 记录 尽 可 能 多 地 下 载 
到 索引 库 中 ， 但 这 下 有 约束 和 前 提 条 件 的 ， 即 不 能 给 被 访问 网 站 造成 
过 大 的 访问 压力 ， 同 时 尽 可 能 市 省 候 虫 本 喘 的 资源 。 

垩 直 搜 索 网 站 往往 会 给 用 户 提 供 多 个 查询 输入 框 ， 不 同 输入 框 代 
表 了 搜索 对 象 某 方面 的 属性 ， 通 过 组 合 这 些 属性 来 将 搜索 范围 缩小 。 
对 于 上 暗 网 息 虫 来 说 ， 一 个 简单 粗暴 的 方式 束 是 :将 各 个 输入 框 可 能 的 
输入 值 组 合 起 来 形成 查询 ， 比 如 对 于 机 票 查 询 来 说 ， 将 所 有 出 发 城 
“所 有 目的 城市 和 时 间 艺 围 的 选项 一 一 组 合 ， 形 成 大 量 的 查询 ， 拓 
给 垂直 搜索 引擎 ， 从 其 搜索 结 采 里 提炼 数据 库 记 录 。 这 人 么 做 比较 野 


ra 


而 且 也 不 是 很 必要 ， 因 为 很 多 组 合 是 无 效 的 ， 大 量 的 返回 结 采 为 

同时 对 被 访问 网 站 造成 了 巨大 的 流量 压力 。 

Google 对 此 提出 了 解决 方案 ， 称 之 为 证 伟 信 息 查 询 模 板 
(Informative Query Templates) 技术 ， 为 了 了 解 其 技术 原理 ， 首 先 需要 

白 什 么 是 查询 模板 。 我 们 以 图 2-11 所 示 的 “职位 搜索 ”垂直 网 站 来 说 
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图 2-11 “职位 搜索 ”垂直 网 站 


在 图 2-11 的 示例 中 ， 为 了 插 述 一 个 职位 ， 完 整 的 查询 由 3 个 不 同 的 
属性 构成 : 职位 类 别 、 行 业 类 别 和 工作 地 点 。 如 果 在 向 搜索 引擎 提交 
查询 的 时 候 ， 部 分 属性 被 赋予 了 值 ， 而 其 他 属性 不 赋值 ， 则 这 几 个 赋 
值 的 属性 一 起 构成 了 一 个 查询 模板 。 

图 2-12 是 大 干 个 “查询 模板 ”的 示例 ， 如 果 模 板 包 含 一 个 属性 ， 则 称 
之 为 一 维 模 板 ， 图 中 模板 1 是 一 维 模 板 ， 模 板 2 和 模板 3 是 两 个 二 维 模 
板 ， 模 板 4 征 三 维 模板 。 


模板 1= (职位 类 别 ] 


有 WW .zh we icom /query ?职位 类 别 = 人 力 资源 & 行业 类 别 = 不 限 & THM = A 


模板 2= TRA. ATMA} 


Www .zh iw cicon /q uery ?职位 类 别 = 人 力 资源 & 行业 类 别 = 电子 商务 & CEA 


模板 3= 好 位 类 别 ， 工 作 地 点 
Yi we nix cicon /overy mnt = 人力 yit HI te 


模板 4= 个 位 类 别 ， 行 业 类 别 ， 工 作 地 点 | 


Pp/ wv wweieo /query? 职 位 类 别 = 人 力 资源 & 行业 类 别 = 电 子 商务 中 下 


图 2-12 ”查询 模板 示例 


对 于 一 个 固定 的 垂直 搜索 来 说 ， 其 查询 模板 组 合 起 来 有 很 多 ， 我 
们 的 任务 是 找到 富 仿 信 息 的 查询 模板 ， 那 么 什么 又 是 富 含 信息 查询 模 
板 呢 ? Google 的 技术 方案 是 如 此 定义 的 : 对 于 某 个 固定 的 查询 模板 来 
说 ， 如 果 给 模板 内 每 个 属性 都 赋值 ， 形 成 不 同 的 得 询 组 合 ， 提 区 给 垂 
直 搜索 引擎 ， 观 察 所 有 返回 页 面 的 内 容 ， 如 有 果 相 互 之 间 内 容 差 异 较 
大 ， 则 这 个 查询 模板 就 是 富 含 信息 得 询 模板 。 

以 图 2-12 中 的 模板 2 为 例 说 明 ， 其 包 仿 了 两 个 属性 ， 职 位 类 别 和 行 
业 类 别 。 职 位 类 别 有 3 种 不 同 赋 值 ， 行 业 类 别 有 2 种 不 同 赋值 ， 两 者 组 
合 有 6 种 不 同 的 组 合 方式 ， 形 成 这 个 模板 的 6 个 查询 。 将 这 6 个 查询 分 别 
提交 给 职位 搜索 引擎 ， 观 察 返回 页 面 内 容 变化 情况 ， 如 采 大 部 分 返回 
内 容 都 相同 或 相似 ， 则 说 明 这 个 查询 模板 不 是 富 含 信息 查询 模板 ， 否 
则 可 被 认为 是 富 含 信息 查询 模板 。 

之 所 以 做 如 此 规定 ， 是 基于 如 下 考虑 : 如 果 返 回 结果 页 面 内 容重 
复 太 多 ， 很 可 能 这 个 碍 询 模板 的 维度 太 高 ， 导 致 很 多 种 组 合 无 搜索 结 
果 ， 抑 或 构造 的 查询 本 身 就 是 错误 的 ， 搜 索 系统 返回 了 错误 页 面 。 

假设 按照 上 面 方式 对 所 有 查询 模板 一 一 试探 ， 判 晰 其 是 否 富 含 信 
轧 查 询 模板 ， 则 因为 查询 模板 数量 太 多 ， 系 统 效率 还 是 会 很 低 。 为 了 
进一步 减少 提交 的 查询 数目 ，Google 的 技术 方案 使 用 了 ISIT 算 法 。 

ISIT 算 法 的 基本 思路 是 : 首 允 从 一 维 模板 开始 ， 对 一 维 查询 模板 逐 
个 考察 ， 看 其 是 否 富 含 信息 查询 模板 ， 如 采 是 的 话 ， 则 将 这 个 一 维 模 


板 扩 展 到 二 维 ， 再 次 依次 考察 对 应 的 二 维 模 板 ， 如 此 类 推 ， 逐 步 增加 
维 数 ， 直 到 再 也 无 法 找到 富 含 信 息 查 询 模板 为 止 。 通 过 这 种 方式 ， 就 
可 以 找到 绝 大 多 数 亩 侣 信息 查询 模板 ， 同 时 也 尽 可 能 减少 了 提交 的 碍 
询 总 数 ， 有 效 达 到 了 目的 。Google 的 评测 结果 证 明 ， 这 种 方法 和 完全 
组 合 方式 比 ， 能 够 大 幅度 提升 系统 效率 。 

如 果 读 者 对 于 数据 挖 据 有 所 了 解 ， 可 以 看 出 ，Google 提 出 的 算法 
和 数据 挖掘 里 经 典 的 Apriori 规 则 控 气 算法 有 异曲同工 之 处 。 


2.6.2 文本 框 填写 问题 


对 于 输入 中 的 文本 框 ， 需 要 扑 虫 自动 生成 查询 ， 图 2-13 给 了 一 个 肖 
用 做 法 的 流程 图 。 
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图 2-13 ”文本 框 自动 填写 


在 爬虫 运转 起 来 之 前 ， 因 为 对 目标 网 站 一 无 所 知 ， 所 以 必须 人 工 
提供 一 些 提示 “。 在 此 例 中 ， 通 过 人 工 观察 网 站 进行 定位 ， 提 供 一 个 与 
网 站 内 容 相关 的 初始 种 子 查询 关键 词 表 ， 对 于 不 同 的 网 站 ， 需 要 人 工 
提供 不 同 的 词 表 ， 以 此 作为 候 虫 能 够 继续 工作 的 基础 条 件 。 拒 虫 根据 
初始 种 子 词 表 ， 回 垂直 搜索 引擎 握 交 碍 询 ， 并 下 载 返回 的 结 采 页 面 。 
之 后 从 返回 结果 页 面 里 自动 控 据 出 相关 的 关键 词 ， 并 形成 一 个 新 的 查 
询 列表 ， 依 次 将 新 挖 气 出 的 查询 提交 给 搜索 引擎 。 如 此 往复 ， 直 到 无 


法 下 载 到 新 的 内 容 为 止 。 通 过 这 种 人 工 启发 结合 递归 迭代 的 方式 ， 尽 
可 能 履 兰 数据 库 里 的 记录 。 


2.7 分布 式 扑 虫 


对 于 商业 搜索 引擎 来 说 ， 分 布 式 叹 虫 架构 是 必须 采用 的 技术 。 面 
对 海量 待 抓 取 网 页 ， 只 有 采取 分 布 式 架构 ， 才 有 可 能 在 较 短 时 间 内 完 
成 一 轮 抓 取 工作 。 

分 布 式 看 虫 可 以 分 为 若干 个 分 布 式 层级 ， 不 同 的 应 用 可 能 由 其 中 
部 分 层级 构成 ， 图 2-14 是 一 个 大 型 分 布 式 叹 虫 的 3 个 层级 ， 分 布 式 数据 
中 心 、 分 布 式 抓 取 服务 器 及 分 布 式 个 虫 程序 。 整 个 疏 虫 系统 由 全 球 多 
个 分 布 式 数据 中 心 共同 构成 ， 每 个 数据 中 心 负责 抓 取 本 地 域 周边 的 互 
联网 网 页 ， 比 如 欧洲 的 数据 中 心 负责 抓 取 英国 、 法 国 、 德 国 等 欧洲 国 
家 的 网 页 ， 由 于 候 虫 与 要 抓 到 的 网 页 地 缘 较 近 ， 在 抓 取 速 度 上 会 较 远 
程 抓 取 快 很 多 。 


数据 中 心 


图 2-14 “分 布 式 爬虫 的 几 个 层级 


每 个 数据 中 心 色 由 多 台 高 速 网 络 连接 的 抓 取 服务 器 构成 ， 而 每 台 
服务 器 又 可 以 部 嗜 多 个 爬虫 程序 。 通 过 多 层级 的 分 布 式 聆 虫 体 系 ， 才 


可 能 保证 抓 取 数据 的 及 时 性 和 全 面 性 。 
对 于 同一 数据 中 心 的 多 台 抓 取 服 务 右 ， 不 同 机 絮 之 间 的 分 工 协 同 
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2.7.1 EARI Ae (Master-Slave) 


对 于 主 从 式 分 布 聆 虫 ， 不 同 的 服务 器 承担 不 同 的 角色 分 工 (参考 
图 2-15) ， 其 中 有 一 台 专 门 负 责 对 其 他 服务 器 提供 URL 分 发 服务 ， 其 他 
机 器 则 进行 实际 的 网 页 下 载 。URL 服 务 器 维护 待 抓 取 URL 队 列 ， 并 从 
中 获得 待 抓 取 网 页 的 URL， 分 配给 不 同 的 抓 取 服务 器 ， 男 外 还 要 对 抓 
取 服 务 器 之 间 的 工作 进行 负载 均衡 ， 使 得 各 个 服务 器 承担 的 工作 量 大 
致 相等 ， 不 至 于 出 现 忙 的 过 忙 、 内 的 过 内 的 情形 。 抓 取 服 务 右 之 间 没 
有 通信 联系 ， 每 个 抓 取 服务 器 只 和 URL 服 务 器 进行 消息 传递 。 


A2-15 EARD AEE 


Google 在 是 期 即 采用 此 种 主 从 分 布 式 朴 虫 ， 在 这 种 以 构 中 ， 因 为 
URL 服 务 器 承担 很 多 管理 任务 ， 同 时 待 抓 取 URL 队 列 数量 巨大 ， 所 以 
URL 服 务 器 容易 成 为 整个 系统 的 瓶 希 。 


2.7.2 ”对 等 式 分 布 息 虫 (Peer to Peer) 
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务 器 承担 相同 的 功能 ， 各 自负 担 一 部 分 URL 的 抓 取 工 作 ， 如 图 2-16 所 示 
即 是 其 中 一 种 对 等 式 分布 息 虫 ，Mercator 候 虫 采 用 此 种 体系 结构 (关于 
Mercator 有 息 虫 具体 技术 细节 可 以 参考 文献 7) 。 


图 216 对 等 分 布 式 候 虫 ( 哈 希 取 模 ) 


由 于 没有 URL 服 务 絮 存在 ， 每 台 抓 取 服 务 絮 的 任务 分 工 就 成 为 回 
题 。 在 如 图 2-16 所 示 体 系 结构 下 ， 由 服务 妖 目 己 来 判断 某 个 URL 是 否 应 
该 由 上 自己 来 抓 取 ， 或 者 将 这 个 URL 传 递 给 相应 的 服务 器 。 人 至 于 采取 的 
判断 方法 ， 则 是 对 网 址 的 主 域名 进行 哈 希 计算 ， 之 后 取 模 ( 即 hash | 域 
名 | %m， 这 里 的 m 对 应 服务 器 个 数 ) ， 如 果 计 算 所 得 的 值 和 抓 取 服务 
右 编 号 匹配 ， 则 目 己 下 载 该 网 页 ， 否 则 将 该 网 址 转发 给 对 应 编号 的 抓 
AIRS as ° 

以 图 2-16 的 例子 来 说 ， 因 为 有 3 台 抓 取 服 务 絮 ， 所 以 取 模 的 时 候 m 
设 定 为 3°。 图 中 的 1 号 抓 取 服 务 絮 负责 抓 取 哈 锅 取 模 后 值 为 1 的 网 页 ， 当 
其 接收 到 网 址 www.google.com 上 时， 首先 利用 哈 希 函数 计算 这 个 主 域名 
的 哈 希 值 ， 之 后 对 3 取 模 ， 发 现 取 模 后 值 为 7， 属于 自己 的 职责 范围 ， 
于 是 就 自己 下 载 网 页 ， 如 果 接 收 到 网 址 www.baidu.com， 哈 希 后 对 3 取 
模 ， 发 现 其 值 等 于 2， 不 属于 目 己 的 职责 范畴 ， 则 会 将 这 个 要 下 载 的 
UREL 转 发 给 2 号 抓 取 服务 右 ， 由 2 号 抓 取 服务 需 来 进行 下 载 。 通 过 这 种 
方式 ， 每 台 服 务 怖 平均 承担 大 约 13 的 抓 取 工作 量 。 

由 于 没有 URL 分 发 服务 器 ， 所 以 此 种 方法 不 存在 系统 敌人 有 贷 问题 ， 
另外 其 哈 希 函数 不 是 针对 整个 URL， 而 只 针对 主 域名 ， 所 以 可 以 保证 


同一 网 站 的 网 页 都 由 同一 台 服 务 器 抓 取 ， 这 样 一 方面 可 以 提高 下 载 效 
K (DNS 域名 解析 可 以 缓存 ) ， 另 外 一 方面 也 可 以 主动 控制 对 某 个 网 
站 的 访问 速度 ， 避 免 对 某 个 网 站 访问 压力 过 大 。 

图 2-16 这 种 体系 结构 也 存在 一 些 缺 点 ， 假 设 在 抓 取 过 程 中 某 台 服务 
器 宕 机 ， 或 者 此 时 新 加 入 一 人 台 抓 取 服 务 器 ， 因 为 取 模 时 m 是 以 服务 右 个 
数 确 定 的 ， 所 以 此 时 m 值 发 生变 化 ， 导 人 致 大 部 分 URL 哈 希 取 模 后 的 值 跟 
着 变化 ， 这 意味 着 几乎 所 有 任务 都 需要 重新 进行 分 配 ， 无 疑 会 导致 资 
源 的 极 大 浪费 。 

为 了 解决 哈 希 取 模 的 对 等 式 分 布 候 虫 存在 的 问题 ，UbiCrawler 疏 虫 
提出 了 改进 方案 ， 即 放弃 哈 希 取 模 方式 ， 转 而 采用 一 致 性 哈 硕 方法 
(Consisting Hash) 来 确定 服务 器 的 任务 分 工 (参考 图 2-17) ° 


www. baidu.com 


图 2-17 WSS eR (一 致 性 哈 希 ) 


一 致 性 哈 希 将 网 站 的 主 域名 进行 哈 希 ， 映 射 为 一 个 范围 在 0 到 23 之 
间 的 茶 个 数值 ， 大 量 的 网 站 主 域名 会 被 均 习 地 哈 硕 到 这 个 数值 区 间 。 
可 以 如 图 2-17 所 示 那 样 ， 将 哈 布 值 范围 首尾 相 接 ， 即 认为 数值 0O 和 最 大 
值 重合 ， 这 样 可 以 将 其 看 做 有 序 的 环 状 序列 ， 从 数值 0 开始 ， 沿 着 环 的 
顺 时 针 方向 ， 哈 希 值 逐 渐 增 大 ， 直 到 环 的 结尾 。 而 某 个 抓 取 服 务 右 则 
负责 这 个 环 状 序列 的 一 个 片段 ， 即 落 在 某 个 哈 希 取 值 范围 内 的 URL 都 
由 该 服务 紫 人 负责 下 载 。 这样 即 可 确定 每 台 服 务 名 的 职责 疙 围 。 


我 们 以 图 2-17 为 例 说 明 其 优势 ， 假 设 2 号 抓 取 服务 器 接收 到 了 域名 
www.baidu.com， 经 过 哈 硕 值 计 算 后 ，2 号 服务 器 知道 在 目 己 的 管辖 范 
围 内 ， 于 是 自己 下 载 这 个 URL。 在 此 之 后 ，2 号 服务 器 收 到 了 
www.sina.com.cn 这 个 域名 ， 经 过 哈 希 计算 ， 可知 是 3 号 服务 絮 人 负责 的 范 
图 ， 于 是 将 这 个 URL 和 转发 给 3 号 服务 絮 。 如 果 3 号 服务 絮 死 机 ， 那 么 2 和 号 
服务 器 得 不 到 回应 ， 于 是 知道 3 号 服务 器 出 了 状况 ， 此 时 顺 时 针 按 照 环 
的 大 小 顺序 查找 ， 将 URL 转 发 给 第 一 个 人 碰 到 的 服务 器 ， 即 1 号 服务 器 ， 
Se een ene B43 5 kA oa 
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从 上 面 的 流程 可 知 ， 即 使 某 台 服务 器 出 了 问题 ， 那 么 本 来 应 该 由 
这 人 台 服 务 器 负责 的 URL 则 由 顺 时 针 的 下 一 个 服务 器 接管 ， 并 不 会 对 其 
他 服务 器 的 任务 造成 影响 ， 这 样 就 解决 了 哈 希 取 模 方式 的 弊端 ， 将 影 
啊 范 围 从 全 局 限制 到 了 局 部 ， 如 果 新 加 入 一 台 下 载 服 务 器 也 是 如 此 。 


本 章 提要 


从 怜 虫 设计 角度 讲 ， 优 秀 的 爬虫 应 该 具备 高 性 能 ， 好 的 可 扩展 
性 、 健 壮 性 和 友好 性 。 

从 用 户 体验 角度 考虑 ， 对 爬虫 的 工作 效果 评价 标准 包括 :， 抓 取 
网 页 覆 盐 率 、 抓 取 网 页 时 新 性 和 抓 取 网 页 重要 性 。 

抓 取 策略 、 网 页 更 新 策略 、 暗 网 抓 取 和 分 布 式 策 上 略 十 仆 虫 系统 
至 天 重要 的 4 个 方面 内 容 ， 基 本 决定 了 扑 虫 系统 的 质量 和 性 能 。 
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第 3 章 ”搜索 引擎 索引 


BAZA, ETME; 宵 不 能 杀人 ， 且 先 言 其 状 。 一 日 含 光 ， 视 之 不 
可 见 ， 运 之 不 知 有 。 其 所 触 也 ， 浇 然 无 际 ， 经 物 而 物 不 觉 。 二 日 承 
影 ， 将 旦 昧 爽 之 交 ， 日 夕 错 明之 际 ， 北 面 而 察 之 ， 淡 淡 在 车 有 物 存 ， 
莫 识 其 状 。 其 所 触 也 ， 窍 窃 然 有 声 ， 经 物 而 物 不 疾 也 。 三 日 宵 练 ， 方 
秀 则 见 影 而 不 见 光 ， 方 夜 见 光 而 不 见 形 。 其 触 物 也 ， 然 而 过 ， 随 过 随 
合 ， 觉 疾 而 不 血 丸 看。 此 三 宝 者 ， 传 之 十 三 世 台 ， 而 无 施 于 事 。 匣 而 
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索引 其 实在 日 前 生活 中 是 很 常见 的 ， 比 如 书籍 的 目录 就 古 一 种 索 
引 结构 ， 目 的 是 为 了 让 人 们 能 够 更 快 地 找到 相关 章 蔬 内容。 再 比如 像 
hao123 这 种 类 型 的 导航 网 站 本 质 上 也 是 互联 网 页 面 中 的 索引 结构 ， 目 
的 类 似 ， 也 是 为 了 让 用 户 能 够 尽快 找到 有 价值 的 分 类 网 站 。 

在 计算 机 科学 领域 ,索引 也 是 非常 党 用 的 数据 结构 。 其 根本 目的 
征 为 了 在 具体 应 用 中 加 快 查找 速度 。 比 如 在 数据 库 中 ， 在 很 多 高 效 数 
据 结 构 中 ， 都 会 大 量 采用 索引 来 提升 系 统 效率 。 

具体 到 搜索 引擎 ， 索 引 更 是 其 中 最 重要 的 核心 技术 之 一 ， 面 对 海 
量 的 网 页 内 容 ， 如 何 快速 找到 包含 用 户 碍 询 词 的 所 有 网 页 ?” 倒 排 索引 
在 其 中 扮 沉 了 关键 的 角色 。 本 章 主 要 讲解 与 倒 排 索引 相关 的 技术 。 


3.1 索引 基础 


本 节 通 过 引入 简单 实例 ， 介 绍 与 搜索 引擎 索引 有 关 的 一 些 基 本 概 
念 ， 了 解 这 些 基 本 概念 对 于 后 续 深 入 了 解 索 引 的 工作 机 制 非常 重要 。 


3.1.1 ”单词 一 文档 矩阵 
单词 一 文档 矩阵 是 表达 两 者 之 间 所 具有 的 一 种 包含 关系 的 概念 模 


型 ， 图 3-1 展 示 了 其 舍 义 。 图 3-1 的 每 列 代表 一 个 文档 ， 每 行 代表 一 个 单 
词 ， 打 对 钓 的 位 置 代 表 包 仿 天 系 。 


图 3-1 单词 一 文档 矩阵 
从 纵向 即 文档 这 个 维度 来 看 ， 每 列 代表 文档 包含 了 哪些 单词 ， 比 


如 文档 1 包含 了 词汇 1 和 词汇 4， 而 不 包含 其 他 单词 。 从 横向 即 单词 这 个 
维度 来 看 ， 每 行 代表 了 哪些 文档 包含 了 某 个 单词 。 比 如 对 于 词汇 1 来 
说 ， 文 档 1L 和 文档 4 中 出 现 过 词汇 1， 而 其 他 文档 不 包含 词汇 1。 矩阵 中 
其 他 的 行列 也 可 做 此 种 解读 。 

搜索 引擎 的 索引 其 实 就 是 实现 单词 一 文档 矩阵 的 具体 数据 结构 。 
可 以 有 不 同 的 方式 来 实现 上 述 概念 模型 ， 比 如 倒 排 索引 、 签 名 文件 、 
后 绥 树 等 方式 。 但 是 各 项 实验 数据 表明 ， 倒 排 索引 是 单词 到 文档 映射 
关系 的 最 佳 实现 方式 ， 所 以 本 章 主 要 介绍 倒 排 索引 的 技术 细节 。 


3.1.2” 倒 排 索 引 基 本 概念 


在 本 小 节 ， 我 们 会 解释 倒 排 索引 常用 到 的 一 些 专用 术语 ， 为 了 表 
达 的 便捷 性 ， 在 本 书后 续 章 节 会 直接 使 用 这 些 术 语 。 

文档 (Document) : 一 般 搜索 引擎 的 处 理 对 象 是 互联 网 网 页 ， 
而 文档 这 个 概念 要 更 宽泛 些 ， 代 表 以 文本 形式 存在 的 存储 对 象 。 相 比 
网 页 来 说 ， 涵 盖 更 多 形式 ， 比 如 Word、PDF、html、XML 等 不 同 格式 
的 文件 都 可 以 称 为 文档 ， 再 比如 一 封 邮 件 、 一 条 短信 、 一 条 微 博 也 可 
0 ° 在 本 书后 续 内 容 中 ， 很 多 情况 下 会 使 用 文档 来 表征 文本 

- 文档 集合 (Document Collection) : 由 若干 文档 构成 的 集合 称 
为 文档 集合 。 比 如 海量 的 互联 网 网 页 或 者 说 大 量 的 电子 邮件 ， 都 是 文 
档 集合 的 具体 例子 。 


: 文档 编号 (Document ID) : 在 搜索 引 警 内部， 会 为 文档 集合 
内 每 个 文档 赋予 一 个 唯一 的 内 部 编号 ， 以 此 编号 来 作为 这 个 文档 的 唯 
一 标识 ， 这 样 方便 内 部 处 理 。 每 个 文档 的 内 部 编号 即 称 为 文档 编号 ， 
后 文 有 时 会 用 DocID 来 便捷 地 代表 文档 编号 。 

: 单词 编号 (Word ID) : 与 文档 编号 类 似 ， 搜 索引 擎 内 部 以 唯 
一 的 编号 来 表征 某 个 单词 ， 单 词 编号 可 以 作为 某 个 单词 的 唯一 表征 。 

- SHEARS] (Inverted Index) : 倒 排 索引 是 实现 单词 文档 矩阵 
的 一 种 具体 存储 形式 。 通 过 倒 排 索引 ， 可 以 根据 单词 快速 获取 包含 这 
的 文档 列表 。 倒 排 索引 主要 由 两 个 部 分 组 成 : 单词 词典 和 倒 排 


单词 词典 (Lexicon) : 搜索 引擎 通常 的 索引 单位 是 单词 ， 单 词 
词典 是 由 文档 集合 中 出 现 过 的 所 有 单词 构成 的 字符 串 集 合 ， 单 词 词典 
内 每 条 索引 项 记载 单词 本 和 丑 的 一 些 信息 及 指 疝 倒 排 列表 的 指针 。 

- FEAF (PostingList) : 倒 排 列表 记载 了 出 现 过 某 个 单词 的 
所 有 文档 的 文档 列表 及 单词 在 该 文档 中 出 现 的 位 置信 息 ， 每 条 记录 称 
(Posting) 。 根 据 倒 排列 表 ， 即 可 获知 哪些 文档 包含 某 
DHTH] ° 

- 倒 排 文件 (Inverted File) : 所 有 单词 的 倒 排列 表 往 往 顺 序 地 存 
储 在 磁盘 的 某 个 文件 里 ， 这 个 文件 即 被 称 为 倒 排 文件 ， 倒 排 文 件 是 存 
储 倒 排 索引 的 物理 文件 。 

关于 这 些 概念 之 间 的 关系 ， 通 过 图 3-2 可 以 比较 清晰 地 看 出 来 。 


图 3-2” 倒 排 索引 基本 概念 示意 图 


3.1.3 ” 倒 排 索引 简单 实例 


倒 排 索引 从 逻辑 结构 和 基本 思路 上 讲 非常 简单 。 下 面 我 们 通过 具 
体 实例 来 进行 说 明 ， 使 读者 能 够 对 倒 排 索引 有 一 个 安 观 而 直接 的 感 
ea o 


假设 文档 集合 包含 5 个 文档 ， 每 个 文档 内 容 如 图 3-3 所 示 ， 在 图 中 最 
左 端 一 栏 是 每 个 文档 对 应 的 文档 编号 ， 我 们 的 任务 就 是 对 这 个 文档 集 
合 建立 倒 排 索引 。 


图 3-3 文档 集合 


中 文 和 英文 等 语言 不 同 ， 单 词 之 间 没 有 明确 的 分 隔 符 号 ， 所 以 首 
先 要 用 分 词 系 统 将 文档 自动 切 分 成 单词 序列 ， 这 样 每 个 文档 就 转换 为 
由 单词 序列 构成 的 数据 流 。 为 了 系统 后 续 处 理 方便 ， 需 要 对 每 个 不 同 
的 单词 赋予 唯一 的 单词 编号 ， 同 时 记录 下 哪些 文档 包含 这 个 单词 ， 在 
如 此 处 理 结 束 后 ， 我 们 可 以 得 到 最 简单 的 倒 排 索引 (参考 图 3-4) 。 在 
图 3-4 中 , “单词 ID” 一 列 记 录 了 每 个 单词 的 单词 编号 ， 第 2 列 是 对 应 的 单 
词 ， 第 3 列 即 每 个 单词 对 应 的 倒 排列 表 。 比 如 单词 “谷歌 ”>， 其 单词 编号 
oe 倒 排 列表 为 {1,2,3,4,5} ， 说 明文 档 集合 中 每 个 文档 都 包含 了 这 个 

词 。 
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图 3-4 ”最 简单 的 倒 排 索引 


之 所 以 说 图 3-4 所 示 的 倒 排 索引 是 最 简单 的 ， 是 因为 这 个 索引 系统 
只 记载 了 哪些 文档 包含 某 个 单词 ， 而 事实 上 ， 索 引 系 统 还 可 以 记录 除 
此 之 外 的 更 多 信息 。 图 3-5 是 一 个 相对 复 洒 些 的 倒 排 索引 ， 与 图 3-4 所 示 
的 基本 索引 系统 相 比 ， 在 单词 对 应 的 倒 排 列表 中 不 仅 记 录 了 文档 编 
号 ， 还 记载 了 单词 频率 信息 (TF) ， 即 这 个 单词 在 某 个 文档 中 出 现 的 
次 数 ， 之 所 以 要 记录 这 个 信息 ， 是 因为 词 频 信息 在 搜索 结果 排序 时 ， 
计算 查询 和 文档 相似 度 古 一 个 很 重要 的 计算 因子 ， 所 以 将 其 记录 在 倒 
排列 表 中 ， 以 方便 后 续 排 序 时 进行 分 值 计算 。 在 图 3-5 所 示 的 例子 里 ， 
单词 “创始 人 ”的 单词 编号 为 7， 对 应 的 倒 排 列表 内 容 有 (3; 1) ， 其 中 
3 代表 文档 编号 为 3 的 文档 包含 这 个 单词 ， 数 字 1 代 表 词 频 信 息 ， 即 这 个 
eee 其 他 单词 对 应 的 倒 排 列表 所 代表 的 含 
XS 司 。 


A ir b Pad bo jal Dbl 
bod 


aice a 
(1;1),(2;1),(3;1),(4;1),(5 
(2:1),(3;1),(5;1) 


1 
2 
3 
4 
5 
6 
7 
8 
9 


fi 
图 3-5“” 带 有 单词 频率 信息 的 倒 排 索 引 


实用 的 倒 排 索引 还 可 以 记载 更 多 的 信息 ， 如 图 3-6 所 示 的 索引 系统 
除了 记录 文档 编号 和 单词 频率 信息 外 ， 额 外 记载 7 两 类 信息 ， 即 每 个 
ee (对 应 图 3-6 的 第 3 列 ) 及 单词 在 某 个 文档 出 现 
Wi ` aA i 
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图 3-6” 带 有 单词 频率 、 文 档 频 率 和 出 现 位 置信 息 的 个 排 索引 


文档 频率 信息 代表 了 在 文档 集合 中 有 多 少 个 文档 包含 某 个 单词 ， 
之 所 以 要 记录 这 个 信息 ， 其 原因 与 单词 频率 信息 一 样 ， 这 个 信息 在 搜 
索 结 采 排 序 计 算 中 是 一 个 非常 重要 的 因子 。 而 单词 在 某 个 文档 中 出 现 
me 
也 可 以 选择 不 包含 这 个 信息 ， 之 所 以 如 此 是 因为 这 个 信息 对 于 搜 
ae 位 置信 息 只 有 在 支持 短语 查询 的 时 候 才能 够 派 


以 单词 “ 拉 斯 ”为 例 ， 其 单词 编号 为 8， 文 档 频率 为 2， 代 表 整 个 文 
档 集 合 中 有 两 个 文档 包含 这 个 单词 ， 对 应 的 倒 排 列表 为 {(3;1;<4>),(5;1; 
<4>)}， 其 舍 义 为 在 文档 3 和 文档 5 出 现 过 这 个 单词 ， 单 词 频率 都 为 1， 
E 出 现 位 置 都 是 4， 即 文档 中 第 4 个 单词 是 “ 拉 


如 图 3-6 所 示 的 倒 排 索引 已 经 是 一 个 非常 完备 的 索引 系统 ， 实 际 搜 
索 系 统 的 索引 结构 基本 如 此 ， 区 别 无 非 是 采取 哪些 具体 的 数据 吉 构 来 
实现 上 述 逻 辑 结 构 。 


有 了 这 个 索引 系统 ， 搜 索引 擎 可 以 很 方便 地 啊 应 用 户 的 查询 ， 比 
如 用 户 输入 查询 词 *Facebook”， 搜 索 系 统 碍 找 倒 排 索引 ， 从 中 可 以 读 出 
包含 这 个 单词 的 文档 ， 这 些 文 档 束 是 提供 给 用 户 的 搜索 结 东 ， 而 利用 
单词 频率 信息 、 文 档 频率 信息 即 可 对 这 些 候选 搜索 结果 进行 排序 ， 计 
算 文档 和 查询 的 相似 性 ， 按 照相 似 性 得 分 由 高 到 低 排序 输出 ， 此 即 为 
搜索 系统 的 部 分 内 部 流程 ， 有 具体 实 现 方案 本 书 第 5 章 会 做 详细 描述 。 


3.2 单词 词典 


单词 词典 是 倒 排 索引 中 非 芝 重要 的 组 成 部 分 ， 它 用 来 维护 文档 集 
合 中 出 现 过 的 所 有 单词 的 相关 信息 ， 同 时 用 来 记载 某 个 单词 对 应 的 倒 
排列 表 在 倒 排 文件 中 的 位 置信 息 。 在 文 持 搜 索 时 ， 根 据 用 户 的 查询 
词 ， 去 单词 词典 里 查询 ， 了 就 能 够 获得 相应 的 倒 排 列表 ， 并 以 此 作为 后 
续 排序 的 基础 。 

对 于 一 个 规模 很 大 的 文档 集合 来 说 ， 可 能 包含 几 十 万 甚至 上 百 万 
的 不 同 单词 ， 能 否 快 速 定 位 某 个 单词 ， 这 直接 影响 搜索 时 的 啊 应 速 
度 ， 所 以 需要 高 效 的 数据 结构 来 对 单词 词典 进行 构建 和 查找 ， 常 用 的 
数据 结构 包括 哈 希 加 链表 结构 和 树 形 词典 结构 。 


3.2.1 “ 哈 希 加 链表 


图 3-7 是 这 种 词典 结构 的 示意 图 。 这 种 词典 结构 主要 由 两 个 部 分 构 
成 ， 主 体 部 分 是 哈 希 表 ， 每 个 哈 希 表 项 保存 一 个 指针 ， 指 针 指 加 冲突 
链表 ， 在 冲突 链表 里 ， 相 同 哈 希 值 的 单词 形成 链表 结构 。 之 所 以 会 
冲突 链表 ， 和 是 因为 两 个 不 同 单词 获得 相同 的 哈 布 值 ， 如 采 羡 这样， 在 
险 硕 方法 里 被 称 做 生 一 次 冲突 ， 可 以 将 相同 哈 硕 值 的 单词 存储 在 链表 
里 ， 以 供 后 续 查 找 。 
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单词 6 “单词 7 


图 3-7 哈 希 加 链表 词典 结构 


在 建立 索引 的 过 程 中 ， 词 典 结构 也 会 相应 地 被 构建 出 来 。 比 如 在 
解析 一 个 新 文档 的 时 候 ， 对 于 某 个 在 文档 中 出 现 的 单词 T， 首 先 利用 哈 
斋 函 数 获得 其 哈 硕 值 ， 之 后 根据 哈 硕 值 对 应 的 哈 布 裘 项 读 取 其 中 保存 
的 指针 ， 束 找到 了 对 应 的 冲突 链表 。 如 采 冲 突 链 表 里 已 经 存在 这 个 单 
词 ， 说 明 单 词 在 之 前 解析 的 文档 里 已 经 出 现 过 。 如 果 在 冲突 链表 里 没 
有 发 现 这 个 单词 ， 说 明 该 单词 是 首次 磁 到 ， 则 将 其 加 入 冲突 链表 里 。 
通过 这 种 方式 ， 当 文档 集合 内 所 有 文档 解析 完毕 时 ， 相 应 的 词典 结构 
也 就 建立 起 来 了 。 

在 啊 应 用 户 查询 请 求 时 ， 其 过 程 与 建立 词典 类 似 ， 不 同 点 在 于 即 
使 词典 里 没 出 现 过 某 个 单词 ， 也 不 会 添加 a 到 词典 内 。 以 图 3-7 为 例 ， 假 
设 用 户 输入 的 查询 请 求 为 单词 93， 对 这 个 单词 进行 哈 希 ， 定 位 到 哈 布 表 
内 的 2 号 权 ， 从 其 保留 的 指针 可 以 获得 冲突 链表 ， 依 次 将 单词 3 和 冲突 
链表 内 的 单词 比较 ， 发 现 单 词 3 在 冲突 链表 内 ， 于 是 找到 这 个 单词 ， 之 
后 可 以 读 出 这 个 单词 对 应 的 倒 排 列表 来 进行 后 续 的 工作 ， 如 果 没 有 找 
到 这 个 单词 ， 说 明文 档 集 合 内 没有 任何 文档 包含 早 词 ， 则 搜索 结案 为 
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3.2.2” 树 形 结 构 


B 树 〈 或 者 B 十 树 ) 是 另外 一 种 高 效 查 找 结构 ， 图 3-8 是 一 个 B 树 结 
构 示 意图 。B 树 与 哈 布 方式 查找 不 同 ， 需 要 字典 项 能 够 按照 大 小 排序 
(数字 或 者 字符 序 ) ， 而 哈 希 方式 则 无 须 数据 满足 此 项 要 求 。 
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图 3-8”B 树 查找 结构 


B 树 形成 了 层级 查找 结构 ， 中 间 节 点 用 于 指出 一 定 顺 序 范 围 的 词典 

项 目 存 储 在 哪个 子 树 中 ， 起 到 根据 词典 项 比较 大 小 进行 导航 的 作用 ， 

oe ee ee 
词 字符 串 。 


3.3” 倒 排列 表 (Posting List) 


在 本 章 第 一 小 节 介 绍 的 简单 索引 例子 中 ， 大 致 可 以 看 到 倒 排列 表 
起 到 的 作用 ， 倒 排列 表 用 来 记录 有 哪些 文档 包含 了 某 个 单词 。 一 般 在 
文档 集合 里 会 有 很 多 文档 包含 某 个 单词 ， 每 个 文档 会 记 杂 文档 编号 
(DocID) ， 单 词 在 这 个 文档 中 出 现 的 次 数 (TF) 及 单词 在 文档 中 哪 
些 位 置 出 现 过 等 信息 ， 这 样 与 一 个 文档 相关 的 信息 被 称 做 倒 排 索引 项 
(Posting) ， 包 含 这 个 单词 的 一 系列 倒 排 索引 项 形成 了 列表 结构 ， 这 
就 是 某 个 单词 对 应 的 倒 排 列表 。 图 3-9 是 倒 排 列表 的 示意 图 ， 在 文档 集 
合 中 出 现 过 的 所 有 单词 及 其 对 应 的 倒 排 列表 组 成 了 倒 排 索引 。 


图 3-9 倒 排列 表示 意图 


在 实际 的 搜索 引擎 系统 中 ， 并 不 存储 倒 排 索引 项 中 的 实际 文档 编 
号 ， 而 是 代 之 以 文档 编号 差 值 (D-Gap) 。 文 档 编号 差 值 是 倒 排 列表 中 
相 邻 的 两 个 倒 排 索引 项 文档 编号 的 差 值 ， 一 般 在 索引 构建 过 程 中 ， 可 
以 保证 倒 排列 表 中 后 面 出 现 的 文档 编号 大 于 之 前 出 现 的 文档 编号 ， 所 
以 文档 编号 差 值 总 是 大 于 0 的 整数 。 如 图 3-10 所 示 的 例子 中 ， 原 始 的 3 个 
文档 编号 分 别 是 187、196 和 199， 通 过 编号 差 值 计算 ， 在 实际 存储 的 时 


候 就 转化 成 了 : 187、9、3。 
iss] 19 |} 
编号 差 值 
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图 3-10 ”文档 编号 差 值 示例 

之 所 以 要 对 文档 编号 进行 差 值 计 算 ， 主 要 原因 是 为 了 更 好 地 对 数 
据 进 行 压 缮 ， 原 始 文档 编号 一 般 都 是 大 数值 ， 通 过 差 值 计算 ， 残 有 效 
地 将 大 数值 转换 为 了 小 数值 ， 而 这 有 助 于 增加 数据 的 压缩 率 。 至 于 为 
何 这 样 ， 本 书 第 4 章 在 专门 讲述 索引 压缩 时 会 叙述 其 原因 。 


3.4 建立 索引 

正如 前 面 章 节 所 述 ， 索 引 结构 如 果 建 立 好 了 ， 可 以 提高 搜索 的 速 
度 ， 那 么 给 定 一 个 文档 集合 ， 索 引 是 如 何 建立 起 来 的 呢 ? 建立 索引 的 
方式 有 很 多 种 ， 本 市 叙述 比较 实用 的 3 种 建立 索引 的 方法 。 


3.4.1 ”两 遍 文档 遍历 法 (2-Pass In-Memory Inversion) 


顾名思义 ， 此 方法 需要 对 文档 集合 进行 两 志 扫 描 ， 图 3-11 是 这 种 方 


法 的 示意 图 。 值 得 注意 的 一 点 是 : 此 方法 完全 是 在 内 存 里 完成 索引 的 
创建 过 程 的 ， 而 另外 两 种 方法 则 是 通过 内 存 和 磁 强 相互 配合 来 完成 驼 
引 建立 任务 的 。 


文档 个 数 N 


图 3-11 ”两 遍 文档 遍历 法 


第 一 过 文档 过 历 


在 第 一 所 扫描 文档 集合 时 ， 该 方法 并 没有 立即 开始 建立 索引 ， 而 
征收 集 一 些 全 局 的 统计 信息 。 比 如 文档 集合 包含 的 文档 个 数 N， 文 档 集 
合 内 所 包含 的 不 同 单词 个 数 M， 每 个 单词 在 多 少 个 文档 中 出 现 过 的 信 
恩 DF。 将 所 有 单词 对 应 的 DF 值 全 部 相 加 ， 束 可 以 知道 建立 最 终 索 引 所 
需 的 内 存 大 小 是 多 少 ， 因 为 一 个 单词 对 应 的 DF 值 如 果 是 10， 说 明 有 10 
个 文档 包含 这 个 单词 ， 那 么 这 个 单词 对 应 的 倒 排列 表 应 该 包含 10 项 内 
容 ， 每 一 项 记载 某 个 文档 的 文档 ID 和 单词 在 该 文档 对 应 的 出 现 次 数 
TF ° 


在 获得 了 上 述 3 类 信息 后 ， 束 可 以 知道 最 终 索 引 的 大 小 ， 于 是 在 内 
存 中 分 配 足够 大 的 空间 ， 用 来 存储 倒 排 索 引 内 容 。 如 图 3-11 所 示 ， 在 内 
存 中 可 以 开辟 连续 存储 区 域 ， 因 为 第 一 遍 扫 描 已 经 获得 了 每 个 单词 的 
DF 信 息 ， 所 以 将 连续 存储 区 划分 成 不 同 大 小 的 片段 ， 词 典 内 某 个 单词 
根据 自己 对 应 的 DF 信息 ， 可 以 通过 指针 ， 指 癌 属于 目 己 的 内 存 片 段 的 
起 始 位 置 和 终止 位 置 ， 将 来 在 第 二 遍 扫描 时 ， 这 个 单词 对 应 的 倒 排 列 
表 信 息 会 被 填充 进 这 个 片段 中 。 

综 上 所 述 ， 第 一 过 要 摘 的 主要 目的 是 获得 一 些 统计 信息 ， 并 根据 
统计 信息 分 配 内 存 等 资源 ， 同 时 建立 好 单词 相对 应 倒 排 列表 在 内 存 中 
的 位 置信 息 ， 即 主要 做 些 资 源 准备 工作 。 


第 二 裔 文档 遍历 


在 第 二 允 扫 描 的 时 候 ， 开 始 真正 建立 每 个 单词 的 倒 排 列表 信息 ， 
印 对 茶 个 单词 来 说 ， 获 得 包含 这 个 单词 的 每 个 文档 的 文档 ID ， 以 及 这 
个 单词 在 文档 中 的 出 现 次 数 TF， 这 样 就 可 以 不 断 填充 第 一 所 扫描 所 分 
配 的 内 存 空间 。 当 第 二 所 扫 摘 结束 的 时 候 ， 分 配 的 内 存 空间 正好 被 填 
充满 ， 而 每 个 单词 用 指针 所 指 问 的 内 存 区 域 “ 片 段 "， 其 起 始 位 置 和 终 
止 位 置 之 间 的 数据 就 是 这 个 单词 对 应 的 倒 排 列表 。 

经 过 两 遍 扫 描 完成 索引 建立 后 ， 即 可 将 内 存 的 倒 排 列表 和 词典 信 
恩 写 入 磁盘 ， 这 样 就 完成 了 建立 索引 的 过 程 。 从 上 述 流 程 可 以 看 出 ， 
索引 的 构建 完全 是 在 内 存 中 完成 的 ， 这 就 要 求 内 存 一 定 要 足够 大 ， 否 
则 如 果 文 档 集合 太 大 ， 内 存 未 必 能 够 满足 需求 。 

从 另外 一 个 角度 看 ， 在 建立 索引 的 过 程 中 ， 从 磁盘 读 取 文档 并 解 
析 文 档 基 本 是 最 消耗 时 间 的 一 个 步 又 ， 而 两 遍 扫 描 法 因为 要 对 文档 集 
合 进行 两 遍 遍 历 ， 所 以 从 速度 上 不 占 优势 ， 在 实际 中 采用 这 种 方法 的 
系统 并 不 常见 。 而 下 面 介 绍 的 两 种 方法 都 是 对 文档 集合 进行 一 所 扫 
描 ， 所 以 在 速度 方面 明显 占 优 。 


3.4.2 ”排序 法 (Sort-based Inversion) 


两 衣 忆 历法 在 建立 索引 的 过 程 中 ， 对 内 存 的 消耗 要 求 较 高 ， 不 同 
的 文档 集合 包含 文档 数量 大 小 不 同 ， 其 所 需 内 存 大 小 古 不 确定 的 。 当 
文档 集合 非常 大 时 ， 可 能 因 内 存 不 够 ， 导 致 无 法 建立 索引 。 排 序 法 对 
此 做 出 了 改进 ， 该 方法 在 建立 索引 的 过 程 中 ， 始 终 在 内 存 中 分 配 固定 
大 小 的 空间 ， 用 来 存放 词典 信息 和 索引 的 中 间 结 果 ， 当 分 配 的 空间 被 
消耗 区 的 时 候 ， 把 中 间 结 采写 入 位 强 ， 清 空 内 存 里 中 间 结 有 末 所 占 罕 


间 ， 以 用 做 下 一 轮 存 放 索 引 中 间 结 果 的 存储 区 。 这 种 方法 由 于 只 需要 
和 
12) 。 


图 3-12 ”排序 法 


中 间 结 果 内 存 排序 


图 3-12 是 排序 法 在 内 存 中 建立 索引 中 间 结 果 的 示意 图 。 读 入 文档 
后 ， 对 文档 进行 编号 ， 赋 予 唯一 的 文档 ID ， 并 对 文档 内 容 解 机 。 对 于 
文档 中 出 现 的 单词 ， 通 过 碍 词典 将 单词 转换 为 对 应 的 单词 ID ， 如 果 词 
典 中 没有 这 个 单词 ， 说 明 是 第 一 次 碰 到 ， 则 赋予 单词 以 唯一 的 单词 ID 
并 插入 词典 中 。 在 完成 了 由 单词 映 冉 为 单词 ID 的 过 程 之 后 ， 可 以 对 该 
文档 内 每 个 单词 建立 一 个 (单词 ID、 文 档 ID、 单 词 频率 ) 三 元 组 ， 这 
个 三 元 组 就 是 单词 对 应 文档 的 倒 排 列表 项 ， 将 这 个 三 元 组 追加 进 中 间 
结果 存储 区 末尾 。 如 采 文 档 内 的 所 有 单词 都 经 过 如 此 处 理 ， 形 成 三 元 
Rd 
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随 着 新 的 文档 不 断 被 处 理 完成 ， 存 储 三 元 组 集合 的 中 间 结 果 所 占 
用 的 内 存 会 越 来 越 大 ， 词 典 里 包含 的 新 单词 也 越 来 越 多 ， 当 分 配 的 内 
存 定额 被 占 满 时 ， 该 方法 对 三 元 组 中 间 结 果 进 行 排序 。 排 序 的 原则 
©: 主键 是 单词 ID ， 即 首先 要 按照 单词 ID 由 小 到 大 排序 ， 次 键 是 文档 
ID， 即 在 相同 单词 ID 的 情况 下 ， 按 照 文档 ID 由 小 到 大 排序 。 通 过 以 上 
方式 ， 三 元 组 变 为 有 序 形式 。 为 了 腾 出 内 存 空 间 ， 将 排 好 序 的 三 元 组 
写 入 磁盘 临时 文件 中 ， 这 样 就 空 出 内 存 来 进行 后 续 文 档 的 处 理 。 这 里 
需要 注意 的 是 : 在 建立 索引 的 过 程 中 ， 词 典 是 一 直 存 储 在 内 存 中 的 ， 
每 次 清空 内 存 只 是 将 中 间 绪 采写 入 磁 强 。 随 着 处 理 文档 的 增加 ， 词 典 
占用 的 内 存 会 逐渐 增加 ， 由 于 分 配 内 存 古 固定 大 小 ， I a ra FA 4 
ee eee 可 用 来 存储 三 元 组 的 空间 是 越 来 越 少 

之 所 以 要 对 中 间 结 果 进 行 排序 ， 主 要 是 为 了 方便 后 续 的 处 理 。 因 
为 每 一 轮 处 理 都 会 在 磁盘 产生 一 个 对 应 的 中 间 结 果 文 件 ， 当 所 有 文档 
处 理 完成 后 ， 在 磁盘 中 会 有 多 个 中 间 结 果 文 件 ， 为 了 产生 最 终 的 索 
引 ， 需 要 将 这 些 中 间 结 果 文 件 合并 。 疼 3-13 是 如 何 对 中 间 结 果 进 行 合 并 


的 示意 图 。 
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图 3-13 ”中 间 结 果 合 并 
合并 中 间 结 果 


如 图 3-13 所 示 ， 在 合并 中 间 结 果 的 过 程 中 ， 系 统 为 每 个 中 间 结 果 文 
件 在 内 存 中 开辟 一 个 数据 缓冲 区 ， 用 来 存放 文件 的 部 分 数据 。 因 为 在 
形成 中 间 结 果 文 件 前 ， 已 经 按照 单词 ID 和 文档 ID 进行 了 排序 ， 所 以 进 
入 缓冲 区 的 数据 已 经 是 有 序 的 。 合 并 过 程 中 ， 将 不 同 缓冲 区 中 包含 的 
同一 个 单词 DD 的 三 元 组 进行 合并 ， 如 果菜 个 单词 ID 的 所 有 三 元 组 全 首 
合并 完成 ， 说 明 这 个 单词 的 倒 排 列表 已 经 构建 完成 ， 则 将 其 写 入 最 终 
索引 中 ， 同 时 将 各 个 缓冲 区 中 对 应 这 个 单词 有 D 的 三 元 组 内 容 清 空 ， 这 
样 缓冲 区 就 可 以 继续 从 中 间 结 果 文 件 中 读 入 后 续 的 三 元 组 来 进行 下 一 
个 单词 的 三 元 组 合并 。 当 所 有 中 间 结 果 文 件 都 依次 被 读 入 缓冲 区 ， 在 
合并 完成 后 ， 就 形成 了 最 终 的 索引 文件 。 


3.4.3 ”归并 法 (Merge-based Inversion) 


排序 法 分 配 固定 大 小 内 存 来 建立 索引 ， 所 以 无 论 要 建立 索引 的 文 
档 集合 有 和 多大， 部 可 以 通过 这 种 方法 完成 。 但 古 如 上 所 述 ， 在 分 配 的 
内 存 定额 被 消耗 光 时 ， 排 序 法 只 是 将 中 间 结 采写 入 磁 副 ， 而 词典 信息 
一 直 在 内 存 中 进行 维护 ， 随 着 处 理 的 文档 越 来 越 多 ， 词 典 里 包含 的 词 
典 项 越 来 越 多 ， 所 以 占用 内 存 越 来 越 大 ， 导 致 后 期 中 间 结 果 可 用 内 存 
越 来 越 少 。 归 并 法 对 此 做 出 了 改进 ， 即 每 次 将 内 存 中 数据 写 入 磁 表 
时 ， 包 丘 词 典 在 内 的 所 有 中 间 结 采信 息 都 极 写 入 人 微 盘 ， 这 样 内 存 所 有 
内 容 都 可 以 被 清空 ， 后 续 建 立 索 引 可 以 使 用 全 部 的 定额 内 存 。 

图 3-14 是 归并 法 的 示意 图 。 其 整体 流程 和 排序 法 大 致 相同 ， 也 是 分 
为 两 个 大 的 阶段 ， 下 先 在 内 存 里 维护 中 间 结 果 ， 当 内 存 占 满 后 ， 将 内 
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内 存 索引 


图 3-14 ”归并 法 


尽管 从 整体 流程 看 ， 和 排序 法 大 致 相同 ， 但 是 在 具体 实现 方式 上 
有 较 大 差异 。 

首先 ， 排 序 法 在 内 存 中 存放 的 是 词典 信息 和 三 元 组 数据 ， 在 建立 
索引 的 过 程 中 ， 词 典 和 三 元 组 数据 并 没有 直接 的 联系 ， 词 典 只 是 万 了 
将 单词 映射 为 单词 TD。 而 归并 法 则 是 在 内 存 中 建立 一 个 完整 的 内 存 过 
引 结构 ， 相 当 于 对 目前 处 理 的 文档 子 集 单独 在 内 存 中 建立 起 了 一 整套 
倒 排 索引 ， 和 最 终 索 引 相 比 ， 其 结构 和 形式 是 相同 的 ， 区 别 只 是 这 个 
索引 只 是 部 分 文档 的 索引 而 非 全 部 文档 的 索引 。 

其 次 ， 在 将 中 间 结 果 写 入 磁盘 临时 文件 时 ， 归 并 法 会 将 整个 内 存 
的 倒 排 索引 写 入 临时 文件 ， 对 于 某 个 单词 的 倒 排 列表 在 写 入 磁盘 文件 
时 ， 将 词典 项 放 在 列表 最 前 端 ， 之 后 跟随 相应 的 倒 排 列表 ， 这 样 依 次 
将 早 词 和 对 应 的 倒 排 列表 写 入 人 磁盘 文件 ， 随 后 彻 抬 清空 所 占 内 存 。 而 
排序 法 如 上 节 所 述 ， 只 是 将 三 元 组 数据 排序 后 写 入 磁 副 临时 文件 ， 词 
典 作 为 一 个 映射 表 一 直 存 储 在 内 存 中 。 

在 最 后 的 临时 文件 合并 为 最 终 索 引 的 过 程 中 ， 两 者 也 有 差异 。 排 
序 法 因为 保存 的 是 有 序 三 元 组 信息 ， 所 以 在 合并 时 ， 是 对 同一 单词 的 
三 元 组 依次 进行 合并 ; 而 归并 法 的 临时 文件 则 是 每 个 单词 对 应 的 部 分 
倒 排 列表 ， 所 以 在 合并 时 针对 每 个 单词 的 倒 排 列表 进行 合并 ， 形 成 这 
ee ee ee 
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3.5 “动态 索引 


如 果 搜 索引 擎 需要 处 理 的 文档 集合 是 静态 集合 ， 那 么 在 索引 建立 
好 之 后 ， 就 可 以 一 直 用 建 好 的 索引 响应 用 户 查询 请 求 。 但 是 ， 在 真实 
环境 中 ， 搜 索引 擎 需要 处 理 的 文档 集合 往往 是 动态 集合 ， 即 在 建 好 初 
始 的 索引 后 ， 后 续 不 断 有 新 文档 进入 系统 ， 同 时 原先 的 文档 集合 内 有 
些 文 档 可 能 被 删除 或 者 内 容 被 更改。 典型 的 例子 就 是 桌面 搜索 ， 当 新 
下 载 一 篇 文档 ， 那 么 搜索 系统 需要 及 时 将 其 纳入 ， 删 除 茶 篇 文档 也 需 
要 在 非常 短 的 时 间 内 在 搜索 结果 里 体现 出 来 。 大 多 数 搜索 引擎 面临 的 
应 用 场景 是 类 似 的 动态 环境 。 

索引 系统 如 何 能 够 做 到 实时 反映 这 种 变化 昵 ? 动态 索引 可 以 实现 
这 种 实时 性 要 求 ， 图 3-15 是 动态 索引 的 示意 图 。 在 这 种 动态 索引 中 ， 有 
3 个 关键 的 索引 结构 : 倒 排 索引 、 临时 索引 和 已 删除 文档 列表 。 


D aen 


倒 排 列表 
图 3-15 动态 索引 


倒 排 索引 歌 是 对 初始 文档 集合 建立 好 的 索引 结构 ， 一 般 单 词 词典 
存储 在 内 存 ， 对 应 的 倒 排 列表 存储 在 磁盘 文件 中 。 临 时 索引 是 在 内 存 


中 实时 建立 的 倒 排 索引 ， 其 结构 和 前 述 的 倒 排 索引 是 一 样 的 ， 区 别 在 
于 词典 和 倒 排 列表 都 在 内 存 中 存储 。 当 有 新 文档 进入 系统 时 ， 实 时 解 
析 文 档 并 将 其 追加 进 这 个 临时 索引 结构 中 。 已 删除 文档 列表 则 用 来 存 
储 已 被 删除 的 文档 的 相应 文档 ID ， 形 成 一 个 文档 ID 列表 。 这 里 需要 注 
Bie: 当 一 篇 文档 内 容 被 更 改 ， 可 以 认为 是 昌文 档 先 被 删除 ， 之 后 
品系 统 内 增加 一 篇 新 的 文档 ， 通 过 这 种 间接 方式 实现 对 内 容 更 改 的 文 


持 


当 系 统 发 现 有 新 文档 进入 时 ， 立 即将 其 加 入 临时 索引 中 。 有 文档 
被 删除 时 ， 则 将 其 加 入 删除 文档 队列 。 文 档 被 更 改 时 ， 则 将 原先 文档 
放 入 删除 队列 ， 解 析 更 改 后 的 文档 内 容 ， 并 将 其 加 入 临时 索引 中 。 通 
过 这 种 方式 可 以 满足 实时 性 的 要 求 。 

如 条 用 户 输入 查询 请 求 ， 则 搜索 引擎 同时 从 倒 排 索引 和 临时 索引 
中 读 取 用 户 碍 询 单词 的 倒 排列 表 ， 找 到 包 侣 用 户 碍 询 的 文档 集合 ， 并 
对 两 个 结 末 进行 合并 ， 之 后 利用 删除 文档 列表 进行 过 滤 ， 将 搜索 结 来 
中 那些 已 经 被 删除 的 文档 从 结 末 中 过 滤 ， 形 成 最 终 的 搜索 结 末 ， 并 返 
回 给 用 户 。 这 样 束 能 够 实现 动态 环境 下 的 准 实时 搜索 功能 。 


3.6 ”索引 更 新 策略 


动态 索引 通过 在 内 存 中 维护 临时 索引 ， 可 以 实现 对 动态 文档 和 实 
时 搜索 的 支持 。 但 是 服务 器 内 存 总 是 有 限 的 ， 随 着 新 加 入 系统 的 文档 
越 来 越 多 ， 量 时 索引 消 耗 的 内 存 也 会 随 之 增加 。 当 最 初 分 配 的 内 存 将 
被 使 用 完 时 ， 要 壮 虚 将 临时 索引 的 内 容 更 新 到 人 磁 副 索引 中 ， 以 释放 内 
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常用 的 索引 更 新 策略 有 4 种 : 完全 重建 策略 、 再 合并 策略 、 原 地 更 
新 策略 及 混合 策略 。 


3.6.1 ”完全 重建 策略 (Complete Re-Build) 


完全 重建 策略 是 一 个 相当 直观 的 方法 ， 当 新 增 文 档 达 到 一 定数 
量 ， 将 新 增 文档 和 原先 的 老 文 档 进行 合并 ， 然 后 利用 前 述 章节 提 到 的 
建立 索引 的 方式 ， 对 所 有 文档 重新 建立 索引 。 新 索引 建立 完成 后 ， 老 
的 索引 被 遗弃 释放 ， 之 后 对 用 户 查 询 的 啊 应 完全 由 新 的 索引 人 负责。 图 3- 
16 是 这 种 策略 的 说 明示 意图 。 


图 3-16 ”完全 重建 策略 


因为 重建 索引 需要 较 长 时 间 ， TEATRI BWR IE 
仍然 需要 维护 老 的 索引 ， 来 对 用 户 的 查询 做 出 啊 应 。 只 有 当 痢 索引 完 
ee nea 将 用 户 查询 响应 切换 到 新 索引 


这 种 重建 策略 比较 适合 小 文档 集合 ， 因 为 完全 重建 索引 的 代价 较 
高 ， 但 是 目前 主流 商业 搜索 引擎 一 般 是 采用 此 方式 来 维护 索引 的 更 新 
的 ， 这 与 互联 网 本 身 的 特性 有 天。 


3.6.2 再 合并 策略 (Re-Merge) 


有 新 增 文档 进入 搜索 系统 时 ， 搜 索 系 统 在 内 存 维护 临时 倒 排 索引 
来 记录 其 信息 ， 当 新 增 文档 达到 一 定数 量 ， 或 者 指定 大 小 的 内 存 被 消 
耗 完 ， 则 把 临时 索引 和 老 文 档 的 倒 排 索引 进行 合并 ， 以 生成 新 的 索 
引 。 图 3-17 是 这 种 策略 的 一 种 图 示 。 


图 3-17 再 合并 策略 


人 再 合并 策略 按照 以 下 步 又 进行 索引 内 容 的 

当 新 增 文档 进入 系统 ， 解 析 文 档 ， 之 后 更 新 内 存 中 维护 的 临时 
索引 ， 文 档 中 出 现 的 每 个 单词 ， 在 其 倒 排 列表 末尾 追加 倒 排 列表 项 ， 
这 个 临时 索引 可 称 为 增 量 索引 。 

- 一 且 增 量 索 引 将 指定 的 内 存 消 耗 光 ， 此 时 需要 进行 一 次 索引 合 
并 ， 即 将 增 量 索引 和 老 的 倒 排 索引 内 容 进行 合并 ， 图 3-18 是 合并 过 程 示 
意图 。 这 里 需要 注意 的 十: 倒 排 文件 里 的 倒 排 列表 存放 顺序 已 经 按照 
索引 单词 字典 顺序 由 低 到 高 进行 了 排序 ， 增 量 索 引 在 这 历 词 典 的 时 候 
也 按照 字典 序 由 低 到 高 排列 ， 这 样 对 老 的 倒 排 文 件 只 需 进行 一 遍 扫 
描 ， 并 可 顺序 读 了 到 ， 减 少 了 文件 操作 中 比较 耗 时 的 磁盘 寻 道 时 间 ， 可 
以 有 效 地 提高 合并 效率 。 
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图 3-18 ”合并 增 量 索引 与 老 的 倒 排 索引 内 容 


在 合并 过 程 中 ， 需 要 依次 饥 历 增 量 索引 和 老 索 引 单 词 词典 中 包含 
的 单词 及 其 对 应 的 倒 排 列表 ， 可 以 用 两 个 指针 分 别 指向 两 套 索 引 中 目 
前 需要 合并 的 单词 (参考 图 3-18 中 箭头 所 指 ) ， 按 照 如 下 方式 进行 倒 排 
列表 的 合并 。 

考虑 增 量 索引 的 单词 指针 指 癌 的 单词 ， 如 果 这 个 单词 在 词典 序 中 
小 于 老 索 引 的 单词 指针 指向 的 单词 ， 说 明 这 个 单词 在 老 索 引 中 未 出 现 
过 ， 则 直接 将 这 个 单词 对 应 的 倒 排 列表 写 入 新 索引 的 倒 排 文件 中 ， 同 
时 增 量 索引 单词 指针 后 移 指向 下 一 个 单词 。 

如 采 两 个 单词 指针 指向 的 单词 相同 ， 说 明 这 个 单词 在 增 量 索 引 和 
老 索 引 中 同时 出 现 ， 则 将 老 索 引 中 这 个 单词 对 应 的 倒 排列 表 写 入 新 索 
引 的 倒 排列 表 ， 然 后 把 增 量 索引 中 这 个 单词 对 应 的 倒 排列 表 追 加 到 其 
后 ， 这 样 藉 完 成 了 这 个 单词 所 有 倒 排列 表 的 合并 。 图 3-18 中 箭头 所 指 单 
词 是 搜索 ， 说 明 此 时 合并 到 了 该 单词 ， 因 为 在 老 的 索引 系统 和 增 量 索 
引 中 都 包含 这 个 单词 ， 所 以 首先 将 老 索 引 对 应 的 倒 排列 表 追 加 到 新 索 


引 倒 排 文件 末尾 ， 之 后 将 增 量 索引 中 搜索 这 个 单词 对 应 的 倒 排 列表 追 
加 在 其 后 ， 这 样 束 完成 了 这 个 单词 索引 项 的 合并 。 两 个 索引 的 单词 指 
针 都 移动 到 下 一 个 单词 继续 进行 合并 。 

如 果 有 某 个 单词 只 在 老 索 引 中 出 现 过 ， 即 发 现 老 索 引 的 单词 指针 指 
问 的 单词 ， 其 词典 序 小 于 增 量 索 引 单词 指针 指向 的 单词 ， 则 直接 将 老 
索引 中 对 应 的 倒 排 列表 写 入 新 索引 倒 排 文件 中 。 老 索引 的 单词 指针 后 
移 指向 下 一 个 单词 ， 继 续 进 行 合并 。 

当 两 个 索引 的 所 有 单词 都 志 历 完成 后 ， 新 索引 建成 ， 此 时 可 以 遗 
弃 释 放 老 索引 ， 使 用 新 索引 来 啊 应 用 户 查 询 请 求 。 

同样 地 ， 在 按照 这 个 策略 进行 索引 合并 的 过 程 中 ， 为 了 能 够 啊 应 
用 户 查 询 ， 在 合并 索引 期 间 ， 需 要 使 用 老 索 引 啊 应 用 户 查 询 请 求 。 

再 合并 策略 是 效率 非常 高 的 一 种 索引 更 新 策略 ， 主 要 原因 在 于 : 
在 对 老 的 倒 排 索引 进行 届 历 时 ， 因 为 已 经 按照 索引 单词 的 词典 序 由 低 
到 高 排 好 顺序 ， 所 以 可 以 顺序 起 取 文件 内 容 ， 减 少 磁盘 寻 道 时 间 ， 这 
征 其 高 效 的 根本 原因 。 但 是 这 种 方法 也 有 其 缺点 ， 因 为 要 生成 新 的 倒 
排 索 引文 件 ， 所 以 对 于 老 索 引 中 的 很 多 单词 来 说 ， 尽 管 其 倒 排 列表 并 
未 发 生 任何 变化 ， 但 是 也 需要 将 其 从 老 索 引 中 读 取 出 来 并 写 入 痢 索 引 
中 ， 这 种 对 磁 副 输入 输出 的 消耗 是 没有 太 大 必要 且 非 常 耗 时 的 。 


3.6.3” 原 地 更 新 策略 (In-Place) 


原 地 更 新 策略 的 基本 出 发 点 ， 可 以 认为 古 试 图 改进 再 合并 和 上 略 的 
缺点 。 也 整 是 说 ， 在 索引 更 新 过 程 中 ， 如 果 老 索引 的 倒 排 列表 没有 变 
化 ， 可 以 不 需要 读 取 这 些 信息 ， 而 只 对 那些 倒 排 列表 变化 的 单词 进行 
处 理 。 甚 至 希望 能 更 进一步 : 即使 老 索 引 的 倒 排 列表 发 生变 化 ， 是 否 
可 以 只 在 其 末尾 进行 追加 操作 ， 而 不 需要 读 取 原 和 完 的 倒 排 列表 并 重 写 
到 位 盘 另 一 个 位 置 ? 如 果 能 够 达到 这 个 目标 ， 明显 可 以 大 量 减少 人 磁 副 
读 写 操作 ， 提 升 系统 执行 效率 。 

为 了 达到 上 述 目 标 ， 原 地 更 新 策略 在 索引 合并 时 ， 并 不 生成 新 的 
索引 文件 ， 而 是 直接 在 原先 老 的 索引 文件 里 进行 追加 操作 (参考 图 3- 
19) ， 将 增 量 索引 里 单词 的 倒 排 列表 项 追加 到 老 索 引 相应 位 置 的 末 
尾 ， 这 样 就 可 达到 上 述 目标 ， 即 只 更 新 增 量 索引 里 出 现 的 单词 相关 信 
居 ， 其 他 单词 相关 信息 不 做 变动 。 


图 3-19 ” 原 地 更 新 策略 
但 是 这 里 存在 一 个 问题 : 对 于 倒 排 文件 中 的 两 个 相 邻 单词 ， 为 了 


在 查询 时 加 快 读 取 速度 ， 其 倒 排 列表 一 般 是 顺序 序列 存储 的 ， 这 导致 
没有 空余 位 置 用 来 退 加 者 信息 。 为 了 能 够 文 持 追 加 操作 ， 原 地 更 新 党 
略 在 初始 建立 的 索引 中 ， 会 在 每 个 单词 的 合 排列 表 末 尾 预 留 出 一 定 的 
cine 空间 ， 这 样 ， 在 进行 索引 合并 时 ， 可 以 将 增 量 索 引 追 加 到 预 留 空 
此 

图 3-20 是 这 种 合并 和 集 略 的 一 个 说 明 。 在 图 中 ， 老 索引 中 每 个 单词 的 
倒 排 列表 末尾 都 预 留 出 空余 磁盘 空间 ， 以 作为 信息 追加 时 的 存储 区 
域 。 在 对 新 增 索引 进行 合并 时 ， 按 照 词典 序 ， 依 次 遍历 新 增 索引 中 包 
含 的 单词 ， 并 对 新 增 倒 排 列表 的 大 小 和 老 索 引 中 相应 预 留 空间 大 小 进 
行 比较 ， 如 果 预 留 空间 足够 大 ， 则 将 新 增 列表 追加 到 老 索 引 即 可 ， 如 
果 预 留 空间 不 足以 容纳 新 增 倒 排 列表 ， 那 么 此 时 需要 在 磁盘 中 找到 一 
块 完整 的 连续 存储 区 ， 这 个 存储 区 足以 容纳 这 个 单词 的 倒 排 列表 ， 之 
后 将 老 索 引 中 的 倒 排 列表 读 出 并 写 入 新 的 磁 副 位 置 ， 并 将 增 量 索 引 对 
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图 3-20 原 地 更 新 策略 索引 合并 


在 如 图 3-20 所 示 的 例子 中 ， 可 以 看 出 ， 单 词 “技术 ”和 “引擎 "在 老 索 
引 中 的 预 留 空间 足够 大 ， 所 以 对 增 量 索引 只 需 做 追加 写 入 即 可 ,但 是 
对 于 单词 “搜索 ”来 说 ， 其 预 留 空间 不 足以 容纳 新 增 倒 排 列表 ， 所 以 这 
个 单词 的 倒 排 列表 需要 迁移 到 磁盘 男 外 一 个 连续 存储 区 中 。 

原 地 更 新 策略 的 出 发 点 很 好 ， 但 是 实验 数据 证 明 其 索引 更 新 效率 
比 再 合并 策略 低 ， 主 要 是 出 于 以 下 两 个 原因 。 

在 这 种 方法 中 ， 对 倒 排 列表 进行 “迁移 ”是 比较 前 见 的 操作 ， 为 了 
能 够 进行 快速 迁移 ， 需 要 找到 足够 大 的 磁 副 连续 存储 区 ， 所 以 这 个 和 集 
略 需 要 对 磁盘 可 用 空间 进行 维护 和 管理 ， 而 这 种 维护 和 查找 成 本 非常 
高 ， 这 成 为 该 方法 效率 的 一 个 瓶颈 。 

对 于 倒 排 文件 中 的 相 邻 索引 单词 ， 其 倒 排 列表 顺序 一 般 是 按照 相 
邻 单词 的 词典 序 存 储 的， 但 是 由 于 原 地 更 新 策略 对 单词 的 倒 排 列表 做 


数据 迁移 ， 某 些 单词 及 其 对 应 倒 排列 表 会 从 老 索 引 中 移出 ， 这 样 吏 破 
坏 了 这 种 单词 连续 性 ， 导 致 在 进行 索引 合并 时 不 能 进行 顺序 读 取 ， 必 
须 维护 一 个 单词 到 其 倒 排 文件 相应 位 置 的 映 喘 表 ， 而 这 样 做 ， 一 方面 
FEIR Tk a ER BS 另外 一 方面 需要 大 量 的 内 存 来 存储 这 种 映射 信 


3.6.4 ”混合 策略 (Hybrid) 


混合 策略 的 出 发 点 是 能 够 结合 不 同 索 引 更 新 策略 的 长 处 ， 将 不 同 
的 索引 更 新 策略 混合 ， 以 形成 更 高 效 的 方法 。 

混合 策略 一 般 会 将 单词 根据 其 不 同性 质 进行 分 类 ， 不 同类 别 的 单 
词 ， 对 其 索引 采取 不 同 的 索引 更 狐 策 略 。 和 背 见 的 做 法 是 : 根据 单词 的 
倒 排列 表 长 度 进行 区 分 ， 因 为 有 些 单 词 经 常 在 不 同文 档 中 出 现 ， 所 以 
其 对 应 的 倒 排 列表 较 长 ， 而 有 些 单 词 很 少见 ， 则 其 倒 排列 表 就 较 短 。 
根据 这 一 性 质 将 单词 划分 为 长 倒 排列 表单 词 和 短 倒 排列 表单 词 。 长 倒 
ene mAAR RARR GFE 
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之 所 以 这 样 做 ， 是 由 于 原 地 更 新 策略 更 适合 长 倒 排 列表 单词 ， 
为 这 种 策略 能 够 节省 磁盘 读 写 次 数 ， 而 长 倒 排 列表 单词 的 读 了 写 开 
销 明 显要 比 短 倒 排 列表 单词 大 很 多 ， 所 以 如 采 采 用 原 地 更 新 策略 ， 效 
果 体 现 得 比较 显著 。 而 大 量 短 倒 排列 表单 词 读 A 写 开 销 相 对 而 言 不 算 
所 以 利用 再 合并 策略 来 处 理 ， 则 其 顺序 读 了 写 优势 也 能 被 充分 
| 用 o 


3.7 ”查询 处 理 


为 搜索 引擎 构建 索引 ， 其 目的 是 能 更 快速 地 提取 与 用 户 查 询 相关 
的 文档 信息 ， 假 设 搜 索引 擎 已 经 根据 前 述 章 节 内 容 建 立 好 了 索引 ， 如 
何 利用 倒 排 索引 来 啊 应 用 户 的 查询 ?” 本 蔬 主 要 描述 搜索 引擎 对 于 用 户 
查询 的 处 理 过 程 。 目 前 有 两 种 常见 的 查询 处 理 机 制 ， 一 种 被 称 做 一 次 
一 文档 方式 ， 男 外 一 种 被 称 为 一 次 一 单词 方式 。 除 了 两 种 基本 的 查询 
处 理 过 程 ， 本 节 还 介绍 跳跃 指针 这 种 查询 优化 过 程 。 

下 面 我 们 用 一 个 具体 的 例子 来 分 别 说 明 两 种 基本 查询 处 理 方 式 的 
运行 机 制 。 在 这 个 例子 里 ， 假 设 用 户 输 入 的 查询 为 “搜索 引擎 ” 技 
术 ”， 而 “搜索 引擎 "这 个 单词 对 应 的 倒 排 列表 中 ， 文 档 症 依次 为 
{1,3,4}, “技术 ”这 个 单词 对 应 的 倒 排 列表 中 ， 文 档 ID 列 表 为 {1,2,4}。 从 
这 两 个 倒 排列 表 可 以 看 出 ， 文 档 1 和 文档 4 同时 包含 了 这 两 个 查询 词 。 


3.7.1 一 次 一 文档 (Doc ata Time) 


搜索 引 敬 接收 到 用 户 的 查询 后 ， 首 先 将 两 个 单词 的 倒 排 列表 从 磁 
盘 读 入 内 存 。 所 谓 的 一 次 一 文档 ， 束 是 以 倒 排 列表 中 包含 的 文档 为 单 
位 ， 每 次 将 其 中 某 个 文档 与 查询 的 最 终 相 似 性 得 分 计算 完毕 ， 然 后 开 
a 个 文档 的 最 终 得 分 ， 直 到 所 有 文档 的 得 分 都 计算 完毕 为 


图 3-21 是 一 次 一 文档 的 计算 机 制 示意 图 ， 为 了 便于 理解 ， 图 中 对 于 
两 个 单词 的 倒 排 列表 中 的 公共 文档 (文档 1 和 文档 4) 进行 了 对 齐 。 图 
中 虚线 箭头 标 出 了 查询 处 理 计算 的 行进 方向 。 


图 3-21 一 次 一 文档 


对 于 文档 1 来 说 ， 因 为 两 个 单词 的 倒 排 列表 中 都 包含 这 个 文档 ， 所 
以 可 以 根据 各 自 的 TF 和 IDF 等 参数 计算 文档 和 查询 单词 的 相似 性 (具体 
计算 方法 请 参考 第 5 章 内 容 ， 此 处 为 了 方便 说 明 ， 对 相似 性 计算 做 了 简 
化 处 理 ) ， 之 后 将 两 个 分 数 相 加 获得 了 文档 1 和 用 户 查 询 的 相似 性 得 
分 。 随 后 搜索 系统 开始 处 理 文档 2， 因 为 文档 2 只 在 “技术 ”这 个 词汇 的 
倒 排 列表 中 ， 所 以 根据 相应 的 TF 和 IDF 计 算 相 似 性 后 ， 即 可 得 出 文档 2 
和 用 户 查询 的 相似 性 得 分 。 用 类 似 的 方法 依次 处 理 文档 3 和 文档 4。 所 
有 文档 都 计算 完毕 后 ， 根 据 文档 得 分 进行 大 小 排序 ， 输 出 得 分 最 高 的 K 
个 文档 作为 搜索 结果 输出 ， 即 完成 了 一 次 用 户 查 询 的 响应 。 


因为 搜索 系统 的 输出 结果 往往 是 限定 个 数 的 ， 比 如 指定 输出 10 个 
HR, o as 次 一 文档 方式 时 ， 不 必 保 存 所 有 文档 的 相关 
性 得 分 ， 而 只 需要 在 内 存 中 维护 一 个 大 小 为 K 的 优先 级 别 队 列 ， 用 来 保 
fe HAVE RES ACOH BSE PROS, XE A TENENTE 
时 间 ， 一 般 会 采用 根 堆 数据 结构 来 实现 这 个 优先 级 别 队 列 ， 在 计算 结 
束 时 ， 按 照 得 分 大 小 输出 就 可 以 实现 搜索 的 目标 。 


3.7.2 一 次 一 单词 (Term ata Time) 


一 次 一 单词 的 计算 过 程 与 一 次 一 文档 不 同 ， 一 次 一 文档 可 以 直观 
理解 为 在 单词 一 文档 抢 阵 中 ， 以 文档 为 单位 ， 纵 向 进行 分 数 票 计 ， 之 
后 移动 到 后 续 文 档 接 着 计算 ， 即 计算 过 程 是 “ 先 纵 向 再 横向 ”而 一 次 
一 单词 则 是 采取 “ 先 横 向 再 纵向 ”的 方式 ， 即 首先 将 某 个 单词 对 应 的 倒 
排列 表 中 的 每 个 文档 ID 都 计算 一 个 部 分 相似 性 得 分 ， 也 就 是 说 ， 在 单 
词 一 文档 矩阵 中 首先 进行 横向 移动 ， 在 计算 完毕 某 个 单词 倒 排列 表 中 
包含 的 所 有 文档 后 ， 接 着 计算 下 一 个 单词 倒 排 列表 中 包含 的 文档 ID， 
即 进 行 纵向 计算 ， 如 果 发 现 某 个 文档 ID 已 经 有 了 得 分 ， 则 在 原先 得 分 
基础 上 进行 累加 。 当 所 有 单词 都 处 理 完 毕 后 ， 每 个 文档 最 终 的 相似 性 
之 后 按照 大 小 排序 ， 输 出 得 分 最 高 的 K 个 文档 作为 搜索 

图 3-22 是 一 次 一 单词 的 运算 机 制图 示 说 明 ， 图 中 虚线 箭头 指示 出 了 
计算 的 行进 方向 ， 为 了 保存 数据 ， 在 内 存 中 使 用 哈 希 表 来 保存 中 间 结 
果 及 最 终 计 算 结 果 。 搜 索 系 统 首先 对 包含 “搜索 引擎 ”的 所 有 文档 进行 
部 分 得 分 计算 ， 比 如 对 于 文档 1， 可 以 根据 TF 和 IDF 等 参数 计算 这 个 文 
档 对 “搜索 引擎 "这 个 查询 词 的 相似 性 得 分 ， 之 后 根据 文档 ID 在 哈 希 表 
中 查找 ， 并 把 相似 性 得 分 保存 在 哈 希 表 中 。 依 次 对 文档 3 和 文档 4 进行 
类 似 的 计算 。 当 “搜索 引擎 ”这 个 单词 的 所 有 文档 都 计算 完毕 后 ， 开 始 
计算 “技术 ”这 个 单词 的 相似 性 得 分 ， 对 于 文档 1 来 说 ， 同 样 地 ， 根 据 TF 
和 IDEF 等 参数 计算 文档 1 和 “技术 ”这 个 单词 的 相似 性 得 分 ， 之 后 查找 哈 
希 表 ， 发 现 文档 1 已 经 存在 得 分 〈“ 搜 索引 擎 ”这 个 单词 和 文档 1 的 相似 
性 得 分 ) ， 则 将 哈 希 表 对 应 的 得 分 和 刚刚 计算 出 的 得 分 相 加 作为 最 终 
得 分 ， 并 更 新 哈 希 表 中 文档 1 对 应 的 得 分 分 值 ， 获 得 了 文档 1 和 用 户 查 
询 最 终 的 相似 性 得 分 ， 之 后 以 类 似 的 方法 ， 依 次 计算 文档 2 和 文档 4 的 
得 分 。 当 全 部 计算 完毕 时 ， 哈 希 表 中 存储 了 每 个 文档 和 用 户 查询 的 最 
终 相 似 性 得 分 ， 排 序 后 输出 得 分 最 高 的 K 个 文档 作为 搜索 结果 。 这 样 ， 
就 以 一 次 一 单词 的 方式 完成 了 对 用 户 查询 的 响应 。 


Score 1 


Score 2 


Score 3 


Score 4 


图 3-22 一 次 一 单词 
3.7.3 ”跳跃 指针 (Skip Pointers) 


如 果 用 户 输 入 的 查询 包含 多 个 查询 词 ， 搜 索引 擎 一 般 默 认 是 采取 
与 逻辑 来 判别 文档 是 否 满足 要 求 ， 即 要 求 相关 网 页 必须 包含 所 有 的 查 
询 词 ， 比 如 用 户 输入 查询 RIE 技术 ”， 只 有 同时 包含 两 个 词汇 
的 网 页 才 会 被 认为 是 相关 的 ， 只 包含 其 中 任意 一 个 关键 词 的 网 页 不 会 
作为 搜索 结果 输出 。 


很 明显 ， 对 于 这 种 应 用 场景 ， 一 次 一 文档 的 查询 处 理 方式 是 比较 

人 对 于 多 词 查 询 ， 找 到 包含 所 有 查询 词 的 文档 ， 等 价 于 求 查 询 
ate 的 倒 排列 表 的 交集 。 

图 3-23 显 示 了 “搜索 引擎 "和 “技术 ”两 个 单词 对 应 的 倒 排 列表 ， 为 了 
简化 问题 ， 我 们 假设 倒 排 列表 里 只 存储 文档 ID。 从 图 3-23 可 以 看 出 ， 
包含 “搜索 引擎 ”单词 的 文档 ， 分 别 为 文档 5、 文 档 7、 文 档 8 等 。 假 设 用 
户 输入 查询 “搜索 引擎 ”技术 ”， 搜 索 系 统 需要 从 索引 结构 中 找 出 包含 
所 有 用 户 查 询 单词 的 文档 列表 ， 在 图 3-23 的 索引 结构 示例 中 ， 即 需要 找 
出 “搜索 引擎 "和 “技术 ”这 两 个 查询 词 各 自 对 应 倒 排 列表 的 文档 ID 交 集 
{5,21,23}， 这 3 个 文档 包含 所 有 查询 词汇 ， 即 是 我 们 需要 的 文档 。 


搜索 引擎 > 5, 7,8, 15, 17, 21, 23, 35, 76 


技术 > 2,3, 5, 7, 14, 21, 23, 36 


图 3-23 ”索引 示例 


如 果 倒 排列 表 直 接 存储 包含 查询 词 的 文档 ID， 那 么 计算 交集 是 非 
常 直观 和 简单 的 ， 其 基本 操作 即 是 在 一 个 倒 排列 表 里 查询 某 个 文档 ID 
是 否 存在 ， 通 过 归并 排序 即 可 获得 O (mtn) 时 间 复杂 度 的 算法 。 如 
果 文档 ID 是 以 文档 编号 差 值 (D 一 Gap) 形式 存储 的 ， 另 外 这 个 差 值 是 
以 压缩 后 的 方式 编码 的 ， 那 么 如 何 求 个 排列 表 的 交集 就 会 复杂 化 。 为 
了 求 两 个 查询 词 对 应 个 排列 表 的 交集 ， 首 先 需要 将 两 个 单词 对 应 的 个 
排列 表 读 入 内 存 ， 然 后 对 数据 解压 缩 恢复 到 文档 编号 差 值 的 形式 ， 之 
后 还 需要 将 其 恢复 成 文档 ID 的 有 序列 表 ， 在 此 基础 上 才能 进行 集合 交 
集运 算 。 而 呈 中 指 针 思想 的 引入 ， 即 可 加 快 个 排 列表 求 交集 这 一 计算 
过 程 。 

跳跃 指针 的 基本 思想 是 将 一 个 个 排列 表 数 据 化 整 为 零 ， 切 分 为 若 
干 个 固定 大 小 的 数据 块 ， 一 个 数据 块 作为 一 组 ， 对 于 每 个 数据 块 ， 增 
加 元 信息 来 记录 关于 这 个 块 的 一 些 信息 ， 这 样 即使 是 面 对 压 缩 后 的 便 
排列 表 ， 在 进行 倒 排列 表 合并 的 时 候 也 能 有 两 个 好 处 ， 一 个 好 处 是 无 
须 解压 缩 所 有 倒 排列 表 项 ， 只 解压 缩 部 分 数据 即 可 ; 另外 一 个 好 处 是 
无须 比较 任意 两 个 文档 ID， 通 过 这 丙种 廊 式 有 效 节省 了 计算 资源 和 在 
诸 资源 。 

图 3-24 即 是 将 <Google” 这 个 查询 词 对 应 的 倒 排 列表 加 入 跳跃 指针 后 
的 数据 结构 。 我 们 假设 对 于 “Google” 这 个 单词 的 倒 排 列表 来 说 ， 数 据 块 
的 大 小 为 3， 即 每 块 数 据 包含 3 个 文档 ID 及 其 词 频 信息 。 之 后 ， 我 们 可 
以 在 每 块 数据 前 面 加 入 管理 信息 ， 比 如 第 1 块 的 管理 信息 是 
<<5,Pos1>>， 其 中 数字 5 代表 块 中 第 1 个 文档 ID 的 编号 ，Pos1 即 是 跳 路 
指针 ， 指 向 第 2 块 的 起 始 位 置 。 
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图 3-24 ”跳跃 指针 


建 好 上 述 索 引 结构 ， 如 何在 一 个 带 有 跳跃 指针 的 倒 排列 表 里 查找 
某 个 文档 是 否 存在 呢 ? 

假设 我 们 需要 在 单词 “<Google” 压 缩 后 的 倒 排 列表 里 查找 文档 编号 为 
7 的 文档 。 首 先 ， 对 倒 排 列表 前 两 个 数值 进行 数据 解压 缩 ， 读 取 第 1 组 
的 跳跃 指针 数据 ， 发 现 其 值 为 <5,Pos1>， 其 中 Pos1 指 出 了 第 2 组 的 跳跃 
指针 在 倒 排列 表 中 的 起 始 位 置 ， 于 是 可 以 解压 缩 Pos1 位 置 处 连续 两 个 
数值 ， 得 到 <13,Pos2>。 跳跃 指针 的 数值 5 和 数值 13， 分 别 表 示 两 组 数据 
中 最 小 编号 文档 的 文档 ID， 我 们 要 查找 的 7 号 文档 落 在 两 者 之 间 ， 说 明 
如 果 7 号 文档 包含 在 单词 “Google” 的 倒 排 列表 中 的 话 ， 一 定 会 在 第 1 组 
中 ， 否 则 说 明 倒 排列 表 中 不 包含 这 个 文档 。 于 是 可 以 依次 对 第 1 组 中 的 
数据 进行 解压 缩 ， 并 根据 最 小 文档 编号 阮 癌 恢复 其 原始 的 文档 编号 ， 
当 读 到 <2,1> 的 时 候 ， 可 以 知道 这 个 文档 对 应 的 原始 文档 ID 为 : 5+2= 
7， 与 我 们 正在 查找 的 文档 编号 相同 ， 说 明 7 号 文档 在 单词 “Google” 的 倒 
排列 表 中 ， 于 是 可 以 结束 这 次 查找 。 而 求 两 个 查询 词 的 倒 排 列表 交集 
忠 古 反复 在 两 个 倒 排 列表 中 查找 某 个 文档 是 否 存在 ， 将 同时 在 两 个 倒 
排列 表 中 出 现 的 文档 ID 作为 计算 结 采 。 

从 上 面 的 查找 过 程 可 以 看 出 ， 相 对 不 包含 跳跃 指针 的 索引 来 说 ， 
我 们 只 需要 对 其 中 一 个 数据 块 进行 解压 缩 和 文档 编号 查找 即 可 获得 结 
果 ， 不 用 将 所 有 索引 数据 都 进行 解压 缩 和 比较 操作 ， 很 明显 这 将 加 快 
查找 速度 ， 并 市 省 内 存 空间 。 


上 面 例子 设 定 分 组 大 小 为 3， 而 在 实际 应 用 中 ， 如 何 设 定 效 据 块 或 
者 数据 组 的 大 小 对 于 效率 有 影响 。 数 据 块 越 小 ， 则 使 用 跳跃 指针 问 后 
进行 跳跃 的 可 能 性 越 大 ， 但 是 缺点 是 增 加 了 指针 比较 操作 的 次 数 ， 数 
据 块 越 大 ， 则 可 以 有 效 减少 指针 比较 次 数 ， 但 是 使 用 跳 路 指针 向 后 跳 
路 的 可 能 性 越 小 。 所 以 需要 根据 数据 情况 对 块 大 小 进行 合理 设置 才能 
取得 最 优 结 末 。 实 践 表 明 一 个 价 单 有 效 的 局 发 规则 是 : 假设 倒 排 列表 
长 度 为 L ( 即 包含 L 个 文档 ID) ， 使 用 L 作 为 块 大 小 ， 则 效果 较 好 。 


3.8 ”多 字段 索引 


在 很 多 实际 的 搜索 应 用 领域 ， 搜 索引 擎 所 要 处 理 的 文档 是 有 一 定 
结构 的 ， 即 文档 包含 明确 区 分 的 多 个 字段 。 比 如 电子 邮件 ， 包 含 “ 发 件 
人 ”、“ 收 件 人 ”、“ 标 题 ? 和 “正文 ” 儿 个 重要 字段 。 再 比如 论文 搜索 引 
区 ， 论 文 是 有 规范 格式 的 ， 包 仿 “ 标 题 "%、“ 作 者 *”、“ 摘 要 ”、“ 正 
文 ”\“ 参 考 文 献 " 等 儿 个 字段 。 对 于 这 种 多 字段 类 型 文档 ， 搜 索引 警 应 
该 能 够 文 持 用 户 指定 某 个 字段 作为 搜索 范围 ， 比 如 邮件 搜索 应 用 应 该 
允许 用 户 在 标题 里 搜索 某 个 关键 词 是 否 出 现 。 

即使 是 对 互联 网 网 页 ， 也 可 以 切割 为 不 同 的 字段 ， 搜 索 天 键 词 出 
现在 不 同 字 段 里 代表 的 权重 是 不 同 鸣 。 如果 搜索 关键 词 出 现在 标题 ， 
很 明显 这 个 网 页 的 相关 性 会 高 于 只 在 正文 中 出 现 关 键 词 的 网 页 。 所 以 
区 分 不 同 字 段 对 于 搜索 引擎 的 相关 性 评分 也 有 很 大 帮助 。 

为 了 能 够 文 持 以 上 的 需求 ， 搜 索引 警 需 要 能 够 对 多 字段 进行 索 
E 多 索引 方式 、 倒 排列 表 方 式 和 扩展 

| JL 。 


3.8.1 多 索引 方式 


多 索引 方式 针对 每 个 不 同 的 字段 ， 分 别 建立 一 个 索引 ， 当 用 户 指 
定 某 个 字段 作为 搜索 范围 时 ， 可 以 从 相应 的 索引 里 提取 结 琳 。 图 3-25 是 
这 种 方式 的 示意 图 。 我 们 假设 要 处 理 的 文档 分 为 “标题 "*、“ 摘 要 ”和 “ 正 
文 ?3 个 字段 ， 本 万 后 续 的 例子 也 是 以 这 种 类 型 的 文档 来 做 说 明 的 。 


= 团 一 一 E 
i :|—— E oe — ï 
—— | 


QEMLI NOE 
图 3-25 多 索引 方式 


当 用 户 没有 指定 特定 字段 时 ， 搜 索引 擎 会 对 所 有 字段 都 进行 查找 
并 合并 多 个 字段 的 相关 性 得 分 ， 对 于 多 索引 方式 来 说 ， 束 需要 对 多 个 
索引 进行 读 了 到 ， 所 以 这 种 方式 的 效率 会 比较 低 。 


3.8.2” 倒 排列 表 方 式 


为 了 能 够 文 持 对 指定 字段 的 搜索 ， 也 可 以 将 字段 信息 存储 在 某 个 
天 键 词 对 应 的 倒 排 列表 内 ， 在 倒 排 列表 中 每 个 文档 索引 项 信息 的 末尾 
追加 字段 信息 ， 这 样 在 读 出 用 户 查 询 关 键 词 的 倒 排 列表 的 同时 ， 就 可 
以 根据 字段 信息 ， 判 断 这 个 关键 词 是 否 在 某 个 字段 出 现 ， 以 此 来 进行 
过 泪 ， 并 保留 指定 字段 内 出 现 过 搜索 词 的 文档 作为 搜索 结 采 返回 。 

图 3-26 走 一 个 具体 的 示例 。 上 面 提 到 ， 我 们 要 处 理 的 文档 包含 了 3 
个 字段 ， 所 以 可 以 用 3 个 比特 位 〈Bit) 来 分 别 表 示 关 键 词 是 否 在 某 个 字 
段 出 现 过 ， 每 个 比特 位 对 应 一 个 字段 。 如 采 天 键 词 在 茶 个 字段 出 现 
过 ， 则 相应 的 比特 位 设 定 为 1， 否 则 设 定 为 0。 我 们 假设 3 个 比特 位 从 左 
到 右 依 次 分 别 对 应 “标题 ”`\“ 摘 要 ”和 “正文 "这 种 顺序 ， 如 果 比 特 位 的 值 
为 “101”， 则 代表 某 个 关键 词 在 “标题 * 和 “正文 ”中 出 现 过 ,但 是 没有 
在 “摘要 ”中 出 现 。 


Hill pii 


搜索 引擎 > [1:2:"001"] [3:3:"101"] [4:5:"111"] 


图 3-26” 倒 排列 表 方 式 


如 图 3-26 所 示 的 例子 显示 了 "搜索 引擎 ”这 个 天 键 词 对 应 的 倒 排 列 
表 ， 从 中 可 以 看 出 ， 有 3 个 文档 包含 天 键 词 “ 搜 索引 擎 >， 它 们 对 应 的 文 
档 编 号 为 1、3 和 4， 紧 跟 在 文档 编号 之 后 的 是 单词 频率 信息 ， 末 尾 则 有 是 
字段 信息 。 我 们 以 文档 1 存储 的 信息 为 例 ， 文 档 1 的 单词 频率 为 2， 相 应 
的 字段 标记 为 "001”， 说 明文 档 1 只 在 "正文 ?中 出 现 过 “搜索 引擎 ”这 个 天 
链 词 。 其 他 的 文档 所 存储 的 信息 售 义 与 此 类 似 。 

当 用 户 指 定 在 文档 标题 中 搜索 “搜索 引擎 "这 个 得 询 词 的 时 候 ， 根 
据 倒 排列 表 中 的 字段 信息 可 以 看 出 ， 文 档 3 和 文档 5 满足 条 件 ， 于 是 输 
出 这 两 个 文档 作为 搜索 结 采 。 


3.8.3 ”扩展 列表 方式 (Extent List) 


扩展 列表 是 实际 中 应 用 得 比较 多 的 文 持 多 字段 索引 的 方法 。 这 个 
方法 为 每 个 字段 建立 一 个 列表 ， 这 个 列表 记载 了 每 个 文档 这 个 字段 对 
应 的 出 现 位 置信 息 。 

图 3-27 古 扩展 列表 的 示意 图 ， 为 了 简便， 图 中 只 展示 了 和 针对 “ 标 
题字 段 所 建立 的 扩展 列表 ， 其 他 字段 的 扩展 列表 与 此 类 似 。 在 标题 扩 
展 列表 中 ， 记 载 了 所 有 文档 的 标题 位 置信 息 ， 比 如 第 1 项 存储 的 信息 为 
<1,(1,4)>， 代 表 对 于 文档 1 来 说 ， 其 标题 的 位 置 为 从 第 1 个 单词 到 第 4 个 
单词 这 个 范围 ， 扩 展 列表 内 其 他 项 含义 类 似 。 
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图 3-27 扩展 列表 方式 


假设 用 户 指定 在 标题 字段 里 搜索 “搜索 引擎 "这 个 查询 ， 通 过 倒 排 
列表 可 以 知道 文档 1、 文 档 3 和 文档 4 包含 这 个 查询 词 ， 接 下 来 需要 判 
I: 这 些 文档 是 否 在 标题 中 出 现 过 查询 词 ? 对 于 文档 1 来 说 ,“ 搜 索引 
擎 ”这 个 查询 词 的 出 现 位 置 是 第 6 和 第 10 这 两 个 位 置 ， 而 通过 对 应 的 标 
AH 展 列表 可 知 ， 文 档 1 的 标题 范围 是 位 置 1 到 位 置 4， 这 说 明文 档 1 的 
标题 内 不 包含 查询 词 ， 即 文档 1 不 满足 要 求 。 对 于 文档 3 来 说 ,“ 搜 索引 
擎 ”在 文档 中 的 出 现 位 置 是 2、8 和 15， 而 对 应 的 标题 扩展 列表 中 ， 标 题 
出 现 范 围 为 位 置 1 到 位 置 3， 说 明 在 位 置 2 出 现 的 这 个 查询 词 是 在 标题 范 
围 内 的 ， 即 满足 要 求 ， 可 以 作为 搜索 结 采 和 输出。 文档 4 也 类 似 ， 走 满足 
搜索 条 件 的 文档 ， 于 十 可 以 输出 文档 3 和 文档 4 作为 搜索 结 采 。 


3.9 ”短语 查询 


短语 是 很 常见 的 语言 现象 ， 儿 个 经 第 连 在 一 起 被 使 用 的 单词 束 构 
成 了 短语 ， 比 如 “你 慌 的 »。 短 语 强 调 单词 之 间 的 顺序 ， 有 了 时 尽管 是 同 
样 的 单词 ， 顺 序 旺 倒 后 会 产生 完全 不 同 的 含义 ， 比 如 “ 慌 你 的 "? 和 “你 懂 
的 ”含义 相差 甚 远 。 

搜索 引擎 如 何 能 够 文 持 短语 呢 ? 如 果 单 词 的 倒 排列 表 只 存储 文档 
编号 和 单词 频率 信息 ， 其 保留 的 信息 下 不 足以 文 持 短 语 搜索 的 ， 因 为 
单词 之 间 的 顺序 关系 没有 保留 。 搜 索引 擎 文 持 短语 查询 ， 本 质问 题 是 
如 何在 索引 中 维护 单词 之 间 的 顺序 关系 或 者 位 置信 息 。 较 常见 的 文 持 
短语 查询 的 技术 方法 包括 : 位 置信 息 索 引 、 双 词 索引 及 短语 索引 这 3 
= 为 了 能 够 更 有 效 地 利用 存储 和 计算 资源 ， 也 可 以 将 三 者 结合 使 


3.9.1 位置 信息 索引 (Position Index) 


由 前 面 的 章节 我 们 知道 ， 对 于 词典 中 其 个 单词 的 倒 排 列表 ， 往 往 
存储 3 种 信息 :文档 ID、 单 词 频率 和 单词 位 置信 息 。 一 般 情 况 下 不 存储 
单词 位 置信 息 ， 因 为 这 种 信息 数量 过 大 ， 一 旦 加 入 位 置信 息 ， 单 词 的 
倒 排列 表 长 度 会 剧烈 增长 ， 这 样 一 方面 消耗 存储 空间 ， 另 一 方面 影响 
磁盘 读 取 效 率 ， 对 快速 响应 用 户 查询 不 利 。 但 是 如 果 索 引 记载 单词 位 
置信 息 ， 则 能 很 方便 地 支持 短语 查询 。 

假设 用 户 输 入 短语 查询 “爱情 买卖 "， 图 3-28 说 明了 位 置 索 引 是 如 何 
支持 短语 查询 的 ， 在 单词 全 排列 表 中 存储 了 文档 ID、 单词 频率 及 位 置 
信息 ， 比 如 <5,2,[3,7] > 索引 项 的 含义 是 : 5 号 文档 包含 爱情 这 个 音 


词 ， 且 这 个 单词 在 文档 中 出 现 2 次 ， 其 对 应 的 位 置 为 3 和 7， 其 他 个 排列 
表 项 的 含义 与 此 相同 。 


爱情 - 7 <5,2 , [3,7]> || <7,3 , [2,8,10]> 外 <9,2 , [1,5]> | 
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图 3-28 ”位 置信 息 索 引 


搜索 引 警 获得 了 用 户 查询 后 ， 从 磁盘 分 别 读 入 两 个 单词 的 个 排列 
表 ， 通 过 倒 排列 表 记载 的 信息 可 知 ， 文 档 5 和 文档 9 同时 包含 两 个 查询 
词 ， 为 了 判断 在 这 两 个 文档 中 ， 用 户 查 询 是 否 以 短语 的 形式 存在 ， 还 
要 判断 位 置信 息 。“ 爱 情 * 这 个 单词 在 5 号 文档 的 出 现 位 置 是 3 和 7， 而 “ 买 
卖 "在 5 号 文档 的 出 现 位 置 是 4， 可 以 看 出 5 号 文档 的 位 置 3 和 位 置 4 分 别 
对 应 单词 “爱情 "和 “买卖 "， 即 两 者 是 一 个 短语 形式 ， 而 对 于 9 号 文档 ， 
做 同样 的 分 析 后 可 知 ， 这 两 个 查询 词 并 没有 连续 在 文档 中 出 现 ， 所 以 
搜索 引擎 会 将 5 号 文档 作为 搜索 结果 返回 ， 这 样 就 通过 位 置信 息 完成 了 
对 短语 查询 的 支持 * 对 于 超过 两 个 查询 词 的 短语 ， 也 可 用 美 似 的 方式 
得 到 结果 。 

尽管 位 置 索引 可 以 支持 短语 查询 ， 但 是 对 于 有 些 查询 ， 其 付出 的 
存储 和 计算 代价 很 高 ， 读 者 可 以 思考 一 下 “我 的 团 长 我 的 团 "这 种 短语 
查询 的 存储 和 计算 代价 。 


3.9.2” 双 词 索引 (Nextword Index) 


双 词 索引 是 另外 一 种 可 以 对 短语 查询 提供 文 持 的 索引 结构 。 短语 
至 少 包 含 两 个 单词 ， 也 可 能 包含 多 个 单词 ， 统 计数 据 表 明 ， 二 词 短 语 
在 短语 中 所 占 比例 最 大 ， 所 以 如 琳 能 够 针对 二 词 短语 提供 快速 查询 ， 
也 能 解决 短语 查询 的 问题 。 

对 于 两 个 单词 构成 的 短语 来 说 ， 一 般 称 第 1 个 单词 为 “ 首 词 "， 第 2 
个 单词 为 “下 词 ”。 图 3-29 是 双 词 案 引 的 数据 结构 ， 在 内 存 中 包含 两 个 词 
典 ， 分 别 是 “ 首 词 ?词典 和 “下 词 ?词典 ,“ 首 词 ? 词 典 有 指针 指 癌 “下 词 词 
典 菜 个 位 置 ,，“ 下 词 ” 词 典 存 储 了 紧 跟 在 “站 词 ”词典 后 的 第 用 短语 的 第 2 
个 单词 , “下 词 * 词 典 的 指针 指 问 包含 这 个 短语 的 倒 排 列表 。 比 如 对 


| 


<9,3,[3,9,15]> | 


于 “我 的 ”这 个 短语 ， 其 倒 排 列表 包含 文档 5 和 文档 7， 对 于 “的 父亲 ”这 个 
短语 ， 其 倒 排 列表 包含 文档 5s， 词典 中 其 他 词典 项 也 十 类 似 的 含义 。 


加 <5,2 ' [3,7]> <7,3 ' [2,8,10]> 
t 
| 
| 
| 
| 
| 
+ 
»  <5,2, [4,9]> 
> <6,2,[4,6]> <9,3,[3,9,15] > 
图 3-29” 双 词 索引 


假设 用 户 输 入 短语 查询 “我 的 父亲 ”， 搜 索引 苟 首先 将 其 拆 分 成 两 
个 短语 “我 的 "和 ”的 父亲 ”， 然 后 分 别 查找 词典 信息 ， 发 现 包含 “我 的 ”这 
个 短语 的 是 文档 5 和 文档 7， 而 包含 “的 父亲 ”这 个 短语 的 有 文档 5。 查 看 
其 对 应 的 出 现 位 置 ， 可 以 知道 文档 5 是 符合 条 件 的 搜索 结果 。 这 样 就 完 
成 了 对 短语 查询 的 支持 。 

双 词 索引 同样 使 得 索引 急剧 增 大 ， 原 移 的 索引 结构 中 ， 词 典 是 一 
维 的 ， 而 双 词 索引 词典 结构 是 二 维 的 ， 这 样 倒 排 列表 个 数 会 发 生 爆炸 
性 增长 ， 所 以 一 般 实现 时 并 非 对 所 有 单词 都 建立 双 词 索引 ， 而 是 只 对 
计算 代价 高 的 短语 建立 双 词 索引 ， 比 如 包含 “我 ”\“ 的 ”等 停 用 词 的 短 
语 ， 这 些 短语 如 果 用 常规 方法 处 理 的 话 ， 存 储 和 计算 代价 太 高 ， 采 用 
双 词 索引 可 以 极 大 地 缓解 这 种 状况 ， 对 于 一 般 的 短语 ， 可 以 使 用 位 置 
信息 等 常规 手段 来 达到 目的 。 


3.9.3 ”短语 索引 (Phrase Index) 
位 置 索引 和 双 词 索引 可 以 有 效 支 持 短语 查询 ， 但 其 实 还 有 一 种 更 


直观 的 方法 来 解决 这 个 问题 ， 那 就 是 直接 在 索引 中 加 入 短语 索引 。 之 
前 介绍 的 常规 索引 结构 中 ， 词 典 都 是 以 单词 作为 查询 和 存储 单位 的 ， 


如 果 将 其 扩展 ， 在 词典 中 直接 加 入 多 词 短语 并 维护 短语 的 倒 排 列表 ， 
这 样 也 可 以 对 短语 进行 支持 。 

短语 索引 有 自己 的 缺点 ， 不 可 能 事先 将 所 有 短语 都 建 好 索引 。 通 
用 的 做 法 是 控 据 出 热门 短语 ， 为 这 些 短语 专门 建立 索引 ， 对 于 其 他 的 
短语 查询 ， 则 采用 常规 方法 处 理 。 挖 掘 短语 的 数据 来 源 可 以 是 多 样 化 
比如 可 以 从 用 户 查 询 日 志 (Search Log) 挖掘 或 者 从 文本 本 身 控 
出 o 


图 3-30 是 加 入 短语 索引 后 的 整体 索引 结构 ， 当 搜索 引擎 接收 到 用 户 
查询 后 ， 首 先 在 短语 索引 里 查找 ， 如 果 找 到 ， 则 计算 后 返回 给 用 户 搜 
索 结 霖 ， 合 则 仍然 利用 贡 规 索引 进行 查询 处 理 。 


ipi 


用 户 查询 


| 短语 索引 
图 3-30 ”短语 索引 
3.9.4 混合 方法 


从 上 述 介绍 可 以 看 出 ， 不 同 的 短语 索引 结构 有 其 各 和 目的 特点 ， 位 
置 索引 适合 处 理 常 规 的 短语 查询 ， 即 计算 代价 较 小 的 短语 ， 双 词 索引 
适合 处 理 计算 代价 较 高 的 短语 查询 ， 而 短语 索引 则 适合 处 理 热 门 短语 
查询 或 者 文本 中 高 频 度 出 现 的 短语 ， 此 三 者 是 以 互补 关系 存在 的 ， 如 
eee BL BE 18 R St WK A FE Se BL 


图 3-31 是 同时 利用 以 上 3 种 方式 的 混合 索引 结构 ， 短 语 索 引用 来 对 
热门 短语 和 高 频 短语 进行 索引 ， 双 词 索 引 对 包含 停 用 词 等 高 代价 短语 
进行 索引 。 接 收 到 用 户 查 询 后 ， 系 统 首先 在 短语 索引 中 查找 ， 如 末 找 
到 则 返回 结果 ， 否 则 到 双 词 索引 中 查找 ， 如 采 找 到 则 返回 结果 ， 否 则 
从 常规 索引 中 对 短语 进行 处 理 ， 这 样 可 以 充分 发 挥 各 目的 优势 。 


人 


混合 索引 
3.10 SARI] (Parallel Indexing) 


图 3-31 


当 搜索 引擎 需要 处 理 的 文档 集合 数量 非常 庞大 时 ， 靠 单机 往往 难 
以 承担 如 此 重任 ， 此 时 和 需要 考虑 分 布 式 解决 方案 ， 即 每 台 机 器 维护 整 
个 索引 的 一 部 分 ， 由 多 台 机 器 协作 来 完成 索引 的 建立 和 对 查询 的 啊 
应 。 至 于 多 台 机 棍 如 何 分 工 协作 ， 目 前 第 用 的 分 布 式 索 引 方 案 包 括 两 
种 ， 按 文档 对 索引 划分 和 按 单词 对 索引 划分 。 


3.10.1 ” 按 文 档 划 分 (Document Partitioning) 


所 谓 的 按 文档 对 索引 划分 ， 束 旦 将 整个 文档 集合 切割 成 各 王子 集 
合 ， 而 每 台 机 器 负责 对 某 个 文档 子 集合 建立 索引 ， 并 啊 应 得 询 请 求 。 
图 3-32 是 该 方式 的 一 个 示意 图 ， 假 设 文 档 集 合 包含 5 个 文档 ， 将 其 切割 
成 两 个 子 集 合 ， 分 别 交 由 两 全 机 器 建立 索引 。 


图 3-32 ” 按 文档 划分 


如 图 3-33 所 示 为 此 分 布 式 索 引 方案 对 用 户 查 询 的 啊 应 过 程 。 查 询 分 
发 服务 器 接收 到 用 户 碍 询 请 求 后 ， 将 查询 广播 给 所 有 索引 服务 妖 。 每 
个 索引 服务 器 负责 部 分 文档 子 集 合 的 索引 维护 和 查询 响应 ， 当 索引 服 
务 器 接收 到 用 户 查 询 后 ， 按 照 本 对 前 述 小 广 所 述 计 算 相 关 文 档 ， 并 将 
得 分 最 高 的 K 个 文档 送 返 查询 分 发 服务 器 。 碍 询 分 发 服务 器 综合 各 个 索 


引 服务 器 的 搜索 结果 后 ， 合 并 搜索 结果 ， 将 得 分 最 高 的 m 个 文档 作为 最 
终 搜索 结果 返回 给 用 户 ， 这 样 束 完 成 了 对 一 次 用 户 查 询 的 响应 。 


图 3-33 ”文档 划分 方式 对 用 户 查询 的 响应 


3.10.2” 按 单词 划分 (Term Partitioning) 


按 单词 划分 索引 方式 与 上 述 按 文档 划分 索引 方式 不 同 ， 不 是 对 文 
档 集 合 进行 切割 ， 而 古 对 单词 词典 进行 划分 ， 每 个 索引 服务 器 人 负责 词 
典 中 部 分 单词 的 倒 排 列表 的 建立 和 维护 ， 图 3-34 是 这 种 分 布 式 索引 方案 
的 示意 图 。 假 设 单 词 词典 包含 了 6 个 单词 ， 这 种 方式 将 每 3 个 单词 的 倒 


排列 表 存 储 在 一 合 索引 服务 器 上 以 此 协作 方式 来 完成 整个 索引 系 


JL ° 


索引 服务 器 


索引 服务 器 
图 3-34 ” 按 单 词 划分 


按照 单词 对 索引 进行 划分 的 分 布 式 方案 中 ， 如 何 响 应 用 户 查 询 ? 
图 3-35 是 这 种 方案 响应 用 户 查询 请 求 的 示意 图 ， 值 得 注意 的 是 ， 在 图 中 
所 示 体 系 结构 下 ， 搜 索 系 统 的 查询 处 理 方式 只 能 是 一 次 一 单词 的 方式 
(细节 参见 3.7 节 内 容 ) 。 


查询 请 求 


(Tem 1, Tem2, Tern3) 


索引 服务 器 节点 3 (Tem?) 
图 3-35 ”单词 倒 排 列表 分 布 情况 查询 处 理 


在 图 示例 子 中 ， 假 设 用 户 输入 的 查询 包含 3 个 单词 Term1、Term2 和 
Term3， 查 询 分 发 服务 器 接收 到 用 户 查询 后 ， 将 查询 转发 给 包含 单词 
Term1 倒 排列 表 的 索引 服务 器 节点 1， 索 引 服 务 器 节点 1 提取 Term1 的 倒 
排列 表 ， 并 累计 计算 搜索 结果 的 中 间 得 分 ， 然 后 将 查询 和 中 间 结 果 传 
递 给 包含 单词 Term2 倒 排列 表 的 索引 服务 器 和 点 ， 索 引 服务 器 节点 2 也 
是 类 似 处 理 ， 并 继续 传递 到 索引 服务 器 和 点 3。 索 引 服务 器 节点 3 处 理 
完成 后 ， 将 最 终结 果 返 回 给 查询 分 发 服务 器 ， 查 询 分 发 服务 器 计算 得 
分 最 高 的 K 个 文档 作为 搜索 结果 输出 。 很 明显 ， 这 是 典型 的 一 次 一 单词 
的 查询 处 理 方式 。 


3.10.3 ”两 种 方案 的 比较 


以 上 两 种 分 布 式 索引 技术 方案 ， 按 文档 来 对 索引 进行 划分 是 比较 
利用 的 ， 而 按 单词 进行 索引 划分 只 在 比较 特殊 的 应 用 场合 才 使 用 。 之 
所 以 如 此 ， 是 因为 按 单词 进行 索引 划分 在 以 下 几 个 方面 存在 不 足 。 


可 扩展 性 


搜索 引擎 处 理 的 文档 集合 往往 十 在 不 断 变动 的 ， 如 果 是 按 文 档 来 
对 索引 划分 ， 则 很 容易 支持 新 增 的 文档 ， 只 要 增加 索引 服务 咒 ， 将 新 
增 的 文档 由 新 增 索 引 服务 器 来 负责 处 理 即 可 ， 对 系统 其 他 部 分 影响 很 
小 ， 在 实现 上 也 非常 方便 。 但 是 如 果 是 按 单词 进行 索引 划分 ， 则 对 几 
乎 所 有 的 索引 服务 器 都 有 直接 影响 ， 因 为 新 增 文档 可 能 包含 所 有 词典 
单词 ， 即 需要 对 每 个 单词 的 倒 排列 表 进 行 更 新 ， 实 现 起 来 相对 复杂 。 


负载 均衡 


按 单 词 进行 每 引 划 分 在 索引 服务 右 的 负载 均衡 方面 做 得 也 不 是 很 
好 。 有 些 单词 比较 常见 ， 几 乎 出 现在 所 有 文档 中 ， 比 如 一 些 常 用 词 ， 
这 些 单 词 的 倒 排列 表 会 非常 庞大 ， 可 能 会 达到 几 十 兆 字 下 。 如 有 是 按 
文档 进行 索引 划分 ， 这 种 单词 的 倒 排 列表 会 比较 均匀 地 分 布 在 不 同 的 
索引 服务 右上 ， 而 按 单词 进行 索引 划分 ， 某 个 和 见 单词 的 倒 排 列表 全 
部 内 容 都 由 一 台 索 引 服务 器 维护 ， 如 果 这 个 单词 同时 又 是 一 个 流行 词 
汇 ， 会 有 很 多 用 户 搜索 ， 维 护 这 个 单词 倒 排 索引 的 索引 服务 万 会 成 为 
负载 过 大 的 性 能 瓶 领 。 


容错 性 


假设 在 分 布 式 索引 系统 里 ， 某 台 索 引 服 务 器 发 生 故 障 ， 对 于 按 文 
档 进 行 索引 划分 的 方案 来 说 ， 因 为 这 只 影响 到 部 分 文档 子 集合 ， 即 使 
某 台 索引 服务 器 不 能 啊 应 查询 ， 其 他 索引 服务 器 仍然 能 够 啊 应 ， 对 于 
用 户 来 说 ， 并 不 会 直接 感受 到 这 种 故障 的 影响 。 但 是 对 于 按 单词 进行 
索引 划分 的 情况 ， 若 索引 服务 器 发 生 故 障 ， 则 某 些 单词 的 倒 排 列表 无 
A 会 发 现 没有 搜索 结果 ， 这 和 直接 影 
fifa 难 。 


对 查询 处 理 方 式 的 支持 


如 上 节 所 述 ， 按 单词 进行 索引 划分 只 能 文 持 一 次 一 单词 这 种 查询 
处 理 方式 ， 而 按 文档 进行 索引 划分 则 不 受 此 限制 ， 可 以 同时 文 持 两 种 
不 同 的 查询 处 理 方 式 。 对 于 某 些 类 型 的 搜索 来 说 ， 需 要 一 次 一 文档 这 
种 查询 处 理 方式 支持 ， 否 则 在 机 制 上 束 无 法 实现 。 按 文档 进行 索引 划 
分 可 以 根据 具体 情况 选择 不 同 的 查询 处 理 方式 ， 而 按 单词 进行 索引 划 
分 则 没有 这 种 灵活 性 。 


本 章 提要 


人 

倒 排 索引 由 单词 词典 和 所 有 单词 对 应 的 倒 排列 表 构 成 。 

倒 排 列表 由 倒 排 列表 项 构成 ， 一 般 倒 排列 表 项 包含 文档 ID、 单 
词 磁 盘 和 单词 在 文档 出 现 位 置 的 信息 ， 而 文档 ID 则 采取 文档 编号 差 值 
方式 编码 。 

j ne 3 种 常用 的 建立 倒 排 索引 的 方法 是 :两 涡 文 档 裔 历法 、 排 序 法 、 
归并 法 。 

: 和 常用 的 索引 更 新 策略 有 4 种 : 完全 重建 策略 、 再 合并 策略 、 原 地 
BE PT TRE ME A RE © 

目前 有 两 种 常见 的 查询 处 理 机 制 ， 一 种 被 称 做 一 次 一 文档 方 
式 ， 男 一 种 被 称 为 一 次 一 单词 方式 。 

实现 多 字段 索引 有 3 种 方式 : 多 索引 方式 、 倒 排列 表 方 式 和 扩展 
列表 方式 。 

较 常 见 的 文 持 短语 查询 的 技术 方法 包括 : AE AAS > OT 
索引 及 短语 索引 这 3 类 ， 为 了 能 够 更 有 效 地 利用 存储 和 计算 资源 ， 也 可 
以 将 三 者 结合 使 用 。 

目前 常用 的 分 布 式 索引 方案 包括 两 种 : 按 文档 对 索引 划分 和 按 
单词 对 索引 划分 。 
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第 4 章 ”索引 压缩 
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D (em) 


对 于 海量 网 页 数据 ， 为 其 建立 倒 排 索 引 往往 需要 耗费 较 大 的 磁盘 
空间 ， 尤 其 是 一 些 比较 稼 见 的 单词 ， 其 对 应 的 倒 排列 表 可 能 大 小 有 几 
百 兆 。 如 果 搜 索引 擎 在 响应 用 户 查 询 的 时 候 ， 用 户 查询 中 包含 常见 词 
谍 ， 束 需要 将 大 量 的 倒 排 列表 信息 从 磁 副 读 入 内 存 ， 之 后 进行 查询 处 
理 给 出 搜索 结果 。 由 于 磁盘 读 了 写 速度 往往 是 个 瓶 贷 ， 所 以 包含 第 用 
词 的 用 户 查 询 ， 其 啊 应 速度 会 受到 严重 影响 。 索 引 讨 缩 则 可 以 利用 数 
据 压缩 算法 ， 有 效 地 将 数据 量 减少 ， 这 样 一 方面 可 以 减少 索引 占用 的 
磁盘 空间 资源 ， 另 一 方面 可 以 减少 磁盘 读 一 写 数据 量 ， 加 快 用 户 查 询 
的 啊 应 速度 。 

倒 排 索 引 主 要 包含 两 个 构成 部 分 : 单词 词典 和 单词 对 应 的 倒 排 列 
表 。 所 以 针对 索引 的 压缩 算法 ， 也 分 为 针对 词典 的 压缩 和 针对 倒 排 列 
表 的 压缩 。 而 对 倒 排 列表 压缩 义 可 以 细 分 为 无 损 压缩 和 有 损 压缩 两 
种 。 所 请 无 损 压 缩 ， 殊 古 将 原始 倒 排 列表 数据 量 减 小 ， 但 古 信息 并 不 
会 因为 占用 空间 的 减 小 而 有 所 损失 ， 通 过 解压 缩 算法 可 以 完全 恢复 原 
始 信息 。 而 有 损 压 缩 则 是 通过 损失 部 分 不 重要 的 信息 ， 以 此 来 获得 更 
高 的 数据 压缩 率 。 

本 章 主 要 介绍 针对 搜索 引擎 索引 的 压缩 算法 ， 首 先 介绍 针对 词典 
的 相关 压缩 技术 ， 第 4.2 太 会 介绍 针对 倒 排 列表 的 经 典 压缩 算法 ， 之 后 
征 对 文档 ID 重 排序 技术 的 说 明 ， 这 是 另 一 种 形式 的 无 损 压 缩 思路 。 最 
后 一 下 从 单 介绍 静态 索引 裁 筋 这 一 有 损 压 缩 算法 。 


4.1 词典 压缩 


为 了 快速 啊 应 用 户 查 询 ， 词 典 数据 往往 会 全 部 加 载 到 内 存 中 ， 以 
加 快 查 找 速 度 。 如 果 文 档 集合 数据 量 很 大 ， 包 含 的 不 同 单词 数目 会 非 


党 多 ， 内 和 存 是 否 能 够 放 得 下 全 部 词典 信息 束 成 了 问题 。 为 了 减 小 词典 
言 息 所 占 内 存 ， 一 般 可 考虑 采用 词典 压缩 拉 术 来 达到 此 目的 。 

上 一 章 介绍 了 词典 的 组 织 方式 有 两 种 : 哈 希 加 链表 和 B 树 形 词典 结 
构 。 在 链表 内 部 或 者 B 树 的 叶子 节点 会 存储 单词 相关 信息 ， 一 般 至 少 会 
存储 以 下 3 项 : 单词 本 身 内 容 ， 文 档 频率 信息 (DF) 及 指向 倒 排 列表 的 
旧 针 信息 。 图 4-1 是 词典 结构 和 信息 的 示意 图 。 
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图 4-1 词典 信息 

对 于 茶 个 词典 项 来 说 ， 文 档 频 率 信息 和 倒 排 列表 指针 信息 各 目 使 
用 4 个 字 市 表示 即 可 ， 而 和 单词 本 里 内 容 可 长 可 短 ， 长 的 单词 比如 “中 华 
人 民 共 和 国 ”， 短 的 单词 比如 “我 "， 长 度 差 异 很 大 。 为 了 能 够 容纳 最 长 
的 单词 ， 需 要 给 单词 内 容 分 配 足够 大 的 空间 ， 我 们 假设 词典 中 最 长 单 
词 是 10 个 汉字 ， 即 每 个 单词 内 容 需 要 分 配 20 个 字 节 ， 即 使 是 像 “ 我 ?这 
种 单字 词 ， 也 会 占用 20 个 字 市 的 位 置 ， 浪 费 严 重 ， 很 明显 这 里 可 以 采 
取 一 些 优 化 的 数据 结构 来 省 出 存储 空间 。 

图 4-2 古 针对 单词 内 容 存储 结构 的 一 种 优化 措施 ， 在 这 个 技术 方案 
里 ， 可 以 将 单词 连续 存储 在 某 个 内 存 区 域 ， 原 先 存储 单词 内 容 的 部 分 
由 指向 这 个 存储 区 对 应 单词 起 始 位 置 的 指针 代 兰 ， 单 词 结尾 可 以 用 词 
典 中 下 一 个 单词 的 指针 所 指向 位 置 来 做 判断 ， 如 此 束 可 以 将 原先 浪费 
的 存储 空间 利用 起 来 。 
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图 4-2 优化 的 词典 结构 


在 上 述 优化 词典 结构 的 基础 上 ， 还 可 以 继续 做 出 改进 ， 图 4-3 是 进 
一 步 改进 方案 的 示意 图 。 其 基本 思想 是 : 将 连续 词典 进行 分 块 ， 图 中 
的 例子 是 将 每 两 个 单词 作为 一 个 分 块 ， 在 实际 开发 时 ， 可 动态 调整 分 
块 大 小 ， 以 获取 最 优 压缩 效果 。 原 先 每 个 词典 项 需要 保留 一 个 指向 连 
续 词 典 区 的 指针 ， 而 分 块 之 后 ， 相 邻 的 两 个 词典 项 可 以 共享 同一 个 指 
针 ， 这 样 每 两 个 词典 项 就 太 省 出 了 一 个 4 字 市 长 的 指针 信息 ， 因 为 此 时 
连续 词典 分 块 内 包含 多 个 单词 ， 为 了 能 够 标 出 其 分 隔 位 置 ， 需 要 为 每 
个 单词 增加 单词 长 度 信息 ， 这 样 就 可 以 在 提取 单词 时 对 块 内 的 不 同 单 
词 子 以 正确 区 分 。 
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图 4-3 ”进一步 优化 的 词典 结构 


实验 表明 ， 经 过 上 述 优化 的 词典 比 不 做 优化 的 词典 占用 内 存 数 量 
诚 少 了 602%6， 可 见 这 些 优化 措施 还 是 非 第 有 效 的 手段 。 


4.2 ” 倒 排 列表 压缩 算法 


单词 对 应 的 倒 排 列表 一 般 记 载 3 类 信息 : 文档 编号 、 词 频 信 息 及 单 
词 位 置 序列 信息 。 因 为 文档 编号 及 单词 位 置 序列 是 依次 递增 的 ， 所 以 
通 季 的 做 法 旦 存储 其 兰 值 ， 而 非 原 始 效 据 。 经 过 老 值 转换 ， 文 档 编 号 
和 单词 位 置信 息 往 往 会 被 转换 成 大 量 的 小 整数 ， 而 词 频 信息 大 部 分 二 
小 整数 ， 因 为 一 个 单词 在 正文 中 出 现 的 频率 通常 都 不 高 。 压 缩 算法 的 
处 理 对 象 就 是 这 3 类 信息 ， 从 以 上 描述 可 以 看 出 ， 倒 排列 表 数 据 有 其 特 
点 ， 即 数字 分 布 挛 重 不 均衡 ， 小 数值 占 了 相当 大 的 比例 。 


4.2.1 评价 索引 压缩 算法 的 指标 


目前 有 很 多 种 倒 排 列表 压缩 算法 可 供 选 择 ， 但 十 评判 算法 的 优 劣 
需要 定量 指标 。 一 般 来 说 ， 评 价 倒 排 列表 压缩 算法 会 考虑 3 方面 的 指 
标 : 压缩 率 、 压 缩 速度 和 解压 速度 。 

所 谓 讨 缩 率 ， 束 是 数据 压缩 前 大 小 和 上 讨 缩 后 大 小 的 比例 关系 ， 很 
明显 ， 压 缩 率 越 高 ， 束 越 节 省 位 盘 空间 ， 同 时 也 节省 了 倒 排列 表 从 厂 


盘 读 入 到 内 存 的 MO 时 间 o 

压缩 速度 是 指 压缩 一 定量 的 数据 所 人 花费 的 时 间 ， 相 对 而 言 ， 这 个 
指标 不 如 其 他 两 个 指标 重要 ， 因 为 压缩 往往 是 在 建立 索引 过 程 中 进行 
的 ， 而 建立 索引 是 一 个 后 台 运 行 过 程 ， 不 需要 即时 响应 用 户 查 询 ， 即 
使 速度 慢 些 也 没有 太 大 关系 。 男 外 ， 建 立 索 引 的 次 数 相 对 而 言 也 不 算 
多 ， 所 以 从 几 个 方面 考虑 ， 压 缩 速度 不 是 一 个 重要 指标 。 

解压 速度 在 3 个 指标 中 是 最 重要 的 ， 其 含义 是 将 压缩 数据 再 次 恢复 
为 原始 数据 所 花费 的 时 间 。 因 为 搜索 引擎 在 啊 应 用 户 查 询 时 ， 从 磁盘 
读 入 的 是 压缩 后 的 数据 ， 需 要 实时 解压 以 快速 啊 应 用 户 ， 所 以 解压 速 
度 直 接 关 系 到 系统 的 用 户 体 验 ， 其 重要 性 不 言 而 喻 。 


4.2.2 一 元 编码 与 二 进 制 编码 


一 元 编码 (Unary Code) 和 二 进 制 编码 (Binary Code) 是 所 有 倒 
排列 表 压 缩 算法 的 基本 构成 元 素 ， 不 论 压缩 算法 内 部 逻辑 思路 是 怎样 
的 ， 最 终 都 要 以 这 两 种 格式 来 对 数据 进行 表示 。 要 么 是 以 一 元 编码 和 

进 制 编码 混合 的 方式 ， 要 么 是 单独 以 二 进 制 编码 的 方式 。 可 以 认为 
这 两 种 编码 格式 是 压缩 算法 的 基础 构件 。 

一 元 编码 是 非常 简 单 直观 的 数据 表示 方式 ， 对 于 整数 X 来 说 ， 使 用 
义 一 1 个 二 进 制 数 字 1 和 末尾 一 个 数字 0 来 表示 这 个 整数 。 图 4-4 是 1 到 5 这 
几 个 数字 相对 应 的 一 元 编码 。 可 以 看 出 ， 一 元 编码 仅仅 适合 表示 非常 
比如 对 于 数字 23000， 如 采用 一 元 编码 表示 明显 是 很 不 经 济 


一 元 编码 


m àù WU N F 


图 4-4 一 元 编码 


二 进 制 表示 方式 是 计算 机 内 部 的 标准 数据 存储 方式 ， 即 由 二 进 制 
数字 0 和 1 进行 组 合 来 表示 实际 的 数据 。 不 同 的 比特 宽度 代表 了 不 同 的 
数字 表示 范围 ， 图 4-5 给 出 了 不 同 的 比特 宽度 能 够 表达 的 数值 范围 及 一 
些 对 应 的 二 进 制 表示 示例 。 比 如 对 于 比特 宽度 为 3 的 情形 ， 即 用 3 个 比 
特 位 来 表示 数字 ， 那 么 其 能 够 表达 的 数值 范围 为 0 到 7 这 8 个 数字 ; 对 于 
数字 5 来 说 ， 将 3 个 比特 位 设置 为 二 进 制 101 的 方式 就 能 够 获得 表达 ， 其 
他 例子 与 此 相同 。 在 计算 机 内 部 ， 一 般 是 以 字 市 为 单位 的 ， 即 比特 宽 
度 为 8 的 二 进 制 编码 就 是 一 个 字 世 。 相 对 于 一 元 编码 来 说 ， 只 要 比特 宽 
度 足 够 长 ， 那 么 二 进 制 编码 可 以 表示 几乎 任意 范围 的 数字 。 


比特 ”数字 表示 


宽度 pm 二 进 制 表示 例子 
1 2 (0-1) 0:<0> 1:<1> 


2 4(0-3) 0:<00> 1:<01> 2:<10> 3:<11> 


3 8(0-7) 1:<001> 3:<011> 5:<101> 
4 16 (0-15) 1:<0001> 10:<1010> 
5 32 (0-31) 1:<00001> 30:<11110> 


图 4-5 ”二 进 制 编码 方式 


了 解 了 一 元 编码 和 二 进 制 编码 这 两 个 压缩 基础 构件 ， 我 们 下 面 介 
绍 一 些 经 典 的 倒 排 列表 压缩 算法 。 


4.2.3 Elias Gamma 算 法 与 Elias Delta 算 法 


Elias Gamma 压 缩 算法 利用 分 解 芳 数 将 待 压缩 的 数字 分 解 为 两 个 因 
子 ， 之 后 分 别 用 一 元 编码 和 二 进 制 编码 来 表达 这 两 个 因子 。 

Elias Gamma JAK AW a EAU Fo 

x=2°+d 

EP, XARA, eMdTRARAL, tEla eA Ta, 
对 于 因子 e 十 1 采用 一 元 编码 来 表示 ， 对 于 因子 d 采 用 比特 宽度 为 e 的 二 
进 制 编码 来 表示 。 

假设 得 压缩 的 数字 为 9， 因 为 9 可 以 分 解 为 2 的 3 次 方 加 1， 所 以 e=3 
而 d= 二 1， 对 e 十 1 用 一 元 编码 后 为 ，1110， 而 对 d 用 比特 宽度 为 3 的 二 进 制 
编码 进行 转换 后 为 001， 将 两 者 拼接 获得 ，1110:001， 此 即 为 数字 9 对 应 
的 Elias Gamma 编 码 ° 

Elias Delta 算 法 是 建立 在 Elias Gamma 算 法 基础 上 的 改进 ， 在 概念 上 
可 以 认为 是 利用 两 次 Elias Gamma 算 法 ， 将 待 压缩 的 数字 分 解 为 3 个 因 
子 ， 之 后 利用 一 元 编码 和 二 进 制 编码 来 进行 数值 压缩 。 


对 于 得 压缩 数字 x，Elias Delta A AiR En RaW, KRORAA 
子 e 和 因子 d， 对 因子 d 采 用 比特 宽度 为 e 的 二 进 制 编码 进行 压缩 ， 而 对 
于 因子 e 十 1， 则 使 用 Elias Gamma 算 法 再 次 进行 压缩 ， 即 分 解 出 另外 两 
个 因子 。 由 此 过 程 可 以 看 出 ，Deaelta 算 法 等 于 使 用 了 两 次 Flias Gamma 算 
将 每 压缩 数字 分 解 为 3 个 因子 ， 然 后 分 别 编码 获得 最 后 的 压缩 数 

我 们 仍然 以 数字 9 来 说 明 Elias Delta 的 编码 过 程 。 根 据 分 解 函 数 可 
知 ，e=3 而 4=1， 对 d 利 用 3 比特 宽度 的 二 进 制 编码 压缩 为 001， 对 e 二 1 
即 数字 4 采用 Elias Gamma 算 法 获得 编码 110:00， 将 两 者 拼接 获得 最 终 压 
缩编 码 为 110:00:001。 

从 以 上 两 个 压缩 算法 的 过 程 可 以 看 出 ，Elias Delta 算 法 对 于 大 数值 
来 说 压缩 效果 要 优 于 Elias Gamma 算 法 。 


4.2.4 Golomb 算 法 与 Rice 算 法 


Golomb 算 法 和 Rice 算 法 在 大 的 思路 上 也 与 上 述 的 两 个 Elias 算 法 类 
似 ， 即 根据 分 解 函 数 将 竺 压缩 数值 分 解 为 两 个 因 了 于 ， 分 别 用 一 元 编码 
和 二 进 制 编码 来 进行 数据 压缩 表示 。 不 同 点 在 于 ， 它 们 采用 了 和 Elias 
BEA A A RRL o 

对 于 待 压 缩 数 值 X，Golomb 和 Rice 算 法 采用 了 如 下 的 因子 分 解 方 


ae 


AFTI Xib 
因子 2= (X—1) modb 

因子 1 是 将 X 减 1 后 除 以 参数 b 同 下 取 整 后 获得 的 整数 ， 将 其 值 加 1 然 
后 采用 一 元 编码 压缩 ， 而 因子 2 则 是 对 参数 b 进 行 取 模 运 算 ， 获 得 取 值 
范围 在 0 到 b 一 1 之 间 的 X 除 以 b 后 的 余数 ， 对 因子 2 使 用 二 进 制 编码 进行 
压缩 ， 因 为 取 模 运算 决定 了 其 取 值 范围 一 定 在 0 到 b 一 1 之 间 ， 所 以 二 进 
制 编码 的 比特 宽度 设 定 为 log (b) 就 能 表示 这 个 范围 内 的 数值 。 

对 于 Golomb 算 法 和 Rice 算 法 来 说 ，b 如 何 取 值 是 其 关键 ， 这 两 个 算 
法 的 不 同 点 也 仅仅 在 于 b 的 不 同 取 值 方式 。b 的 取 值 依据 是 什么 呢 ? b 的 
设 定 依赖 于 竺 编码 数值 序列 的 平均 值 或 者 中 位 数 ， 在 此 基础 上 ， 
Golomb 和 Rice 算 法 对 b 的 设 定 采 取 了 不 同 的 策略 ， 假 设 一 个 待 压缩 数 值 
序列 的 平均 值 为 Avg， 则 Golomb 算 法 设 定 为 : 

b=0.69xAvg; 

这 里 的 0.69 是 个 经 验 参 数 ， 而 Rice 算 法 则 要 求 b 一 定 要 为 2 的 整数 次 

需 ， 同 时 b 必 须 是 所 有 小 于 平均 值 Avg 的 2 的 整数 次 寡 的 数值 中 最 接近 


Avg 的 数值 。 假 设 Avg 的 数值 为 113 的 话 ， 则 b 会 被 设 定 为 64， 因 为 如 果 
是 128， 则 超过 了 113， 如 果 是 32， 则 此 值 不 是 小 于 113 且 最 接近 113 的 
数值 ， 只 有 64 符 合 这 些 条 件 。 

图 4-6 给 出 了 利用 Golomb 算 法 和 Rice 算 法 对 待 压缩 数值 序列 进行 压 
缩 的 示例 。 首 先 ， 获 得 数值 序列 的 平均 值 133，Golomb 算 法 设 定 b = 
78， 其 二 进 制 编码 的 比特 宽度 可 以 取 6 或 者 7， 即 对 在 0 到 77 范 围 内 的 数 
值 ， 如 果 因 子 分 解 后 因子 2 的 值 小 于 50， 则 采取 6 比特 宽度 ， 如 果 因 子 2 
的 值 大 于 50 则 采取 7 比特 宽度 ， 这 样 可 以 有 效 减 少 压缩 数据 的 大 小 ;而 
Rice 算 法 设 定 b=64， 其 二 进 制 编码 的 比特 宽度 取 6。 当 这 些 参数 都 可 以 
确定 下 来 后 ， 即 可 对 数值 进行 压缩 编码 ， 我 们 以 数值 144 为 例 说 明 ， 首 
先 对 其 减 去 1， 即 需要 对 143 进 行 压缩 。 对 于 Golomb 算 法 来 说 ， 其 对 应 
的 因子 1 取 值 为 1， 数 值 加 1 后 采用 一 元 编码 得 到 10， 因 子 2 取 值 为 65， 
对 其 进行 二 进 制 编码 得 到 1000001， 拼 接 两 者 获得 最 终 编码 
10:1000001。 对 于 Rice 算 法 来 说 ，143 对 应 的 两 个 因子 分 别 为 2 和 15， 对 
2 加 1 后 进行 一 元 编码 得 到 110， 对 15 进 行 二 进 制 编码 得 到 001111， 拼 接 
两 者 得 到 最 终 编 码 110:001111。 


0x78+33 0:100001 0x64+33 0:100001 


143 1x78+65 10:1000001 143 2x64+15 = 110:001111 


112 1x78+34 10:100010 112 1x64+48 = 10:110000 


2x78+5  110:000101 161 2x64+33 110:100001 


图 4-6 ”Golomb 算 法 和 Rice 算 法 示例 


对 于 Rice 算 法 来 说 ， 之 所 以 要 设 定 b 为 2 的 整数 次 需 ， 是 为 了 在 具体 
实现 算法 时 能 够 采取 掩 码 操作 或 者 比特 位 移 操作 等 快速 运算 方式 ， 所 
以 Rice 在 运算 效率 方面 要 高 于 Golomb 算 法 。 

而 对 设 定好 的 参数 b 来 说 ， 其 适用 苑 围 可 以 是 局 部 的 也 可 以 是 全 局 
的 ， 所 谓 全 局 的 适用 范围 ， 就 是 说 确定 好 b 后 所 有 单词 对 应 的 倒 排 列表 
都 采用 同一 个 数值 ， 而 所 谓 局 部 的 适用 范围 ， 则 是 不 同 单词 的 倒 排 列 
表 采 取 不 同 的 参数 b。 一 般 来 说 ， 如 果 索 引 非 常 庞大 ， 则 采取 局 部 参数 
b 效 果 更 好 ， 原 因 也 很 明显 ， 因 为 局 部 参数 b 等 于 是 对 竺 编码 序列 根据 
局 部 分 布 情况 进行 自 适应 调整 ， 这 样 会 使 得 压缩 效果 更 好 。 


4.2.5” 变 长 字 节 算法 (variable Byte) 


变 长 字 节 算法 以 字 节 〈 即 比特 视 度 为 8) 为 一 个 基本 存储 单位 ， 而 
之 前 介绍 的 压缩 算法 都 是 变 长 比特 算法 ， 即 以 比特 位 (Bit) 作为 基本 
存储 单位 。 之 所 以 称 之 为 “ 变 长 字 节 ”， 是 因为 对 于 不 同 的 待 压缩 数字 
在 压缩 编码 后 占用 的 字 节 数目 不 一 定 相同 ， 可 长 可 短 ， 是 变化 


一 个 字 节 包含 8 个 比特 位 ， 因 为 对 于 变 长 字 节 算法 来 说 ， 每 个 数字 
压缩 后 的 字 节 数目 是 变动 的 ， 为 了 确定 两 个 连续 数字 压缩 后 的 边界 ， 
需要 利用 字 节 中 一 个 比特 位 作为 边界 判断 符号 ， 一 般 如 果 边 界 判断 比 
特 位 设 定 为 0， 则 可 以 认为 这 个 字 节 是 数字 压缩 编码 的 最 后 一 个 字 节 ， 
而 如 果 设 定 为 1， 则 说 明 后 续 的 字 节 仍然 属于 当前 的 压缩 数据 数字 。 所 
以 每 个 字 节 在 概念 上 被 划分 为 两 部 分 ， 其 中 一 个 比特 位 用 来 做 边界 判 
断 ;， 其 他 7 个 比特 位 采用 二 进 制 编码 来 存储 压缩 数据 ， 即 每 个 字 节 的 数 
值 表 示范 围 为 128 个 数字 。 

给 定 一 个 数值 ， 如 何 对 其 进行 变 长 字 节 压缩 ? 图 4-7 给 出 了 数值 
33549 的 变 长 字 节 压缩 示例 ， 因 为 一 个 字 节 可 表示 的 数值 范围 为 0 到 
127， 所 以 按照 128 作 为 基数 将 待 压 缩 数值 进 行 分 解 ， 分 解 后 的 因子 分 
别 为 2、6 和 13， 则 在 相应 的 字 节 存储 这 几 个 因子 的 二 进 制 编码 ， 同 时 
设置 边界 指示 位 置 为 1、1 和 0， 即 说 明 这 个 数值 需要 3 个 字 节 来 进行 存 


储 。 
0000010) 1 | 0000110 o 0001101 


33549 = 2x128x128 + 6x1 


图 4-7” 变 长 字 节 压缩 示例 
对 于 多 个 连续 待 压缩 数值 ， 则 每 个 数值 依照 上 例 进 行 压缩 编码 ， 
将 其 压缩 编码 连续 存储 即 可 。 图 4-8 给 出 了 多 个 连续 数值 序列 对 应 的 变 
长 字 节 编码 序列 。 


图 4.8 ”多 数值 的 变 长 字 节 编码 序列 
4.2.6 Simplex RJA 


SimpleX 系 列 算法 最 常见 的 是 Simple9， 在 此 基础 上 有 改进 算法 
Simple16、relate10 及 carryover12 等 ， 本 节 我 们 主要 介绍 Simple9 算 法 的 
计算 思路 E 

Simple9 是 一 种 字 对 齐 算 法 ， 最 常用 的 是 利用 32 个 比特 位 〈 即 4 个 字 
T) 来 作为 一 个 压缩 单位 ， 给 定 固定 大 小 的 压缩 单位 后 ， 每 个 压缩 单 
Ta 。 图 4-9 给 出 了 Simple9 算 法 的 字 划 分 布 


4bit 类 型 指示 位 上 
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图 4-9 Simple9 的 9 种 字 划 分 布局 


从 图 4-9 可 以 看 出 ， 每 个 32 位 比特 字 被 划分 为 两 个 组 成 部 分 ， 其 中 4 
个 比特 作为 管理 数据 存储 区 ， 剩 下 28 个 比特 作为 压缩 数据 存储 区 ， 而 
压缩 数据 存储 区 根据 实际 使 用 情况 ， 可 以 划分 为 9 种 布局 类 型 (这 也 是 
Simple9 的 名 字 来 源 ) 。4 比 特 类 型 指示 位 用 来 指示 后 续 的 数据 存储 区 属 
于 哪 种 类 型 ， 而 图 中 的 B 则 指出 了 后 续 数 据 存 储 区 的 基本 单元 的 比特 宽 


度 


比如 对 于 B 为 1 的 情况 ， 说 明 后 续 数 据 存储 区 基本 单元 比特 宽度 为 
1， 数 据 存储 区 共有 28 个 比特 ， 所 以 数据 区 被 划分 为 28 个 1 比特 宽度 的 
基本 单元 构成 。 因 为 一 个 比特 只 能 存储 二 进 制 数值 0 或 者 1， 即 区 分 两 
种 状况 ， 所 以 这 个 32 位 比特 字 可 以 存储 28 个 范围 在 0 到 1 的 数字 。 

对 于 B 为 2 的 情况 ， 数 据 存储 区 基本 构成 单元 比特 宽度 为 2， 即 数据 
存储 区 由 14 个 2 比特 位 基本 单元 拼接 而 成 ， 因 为 2 比特 位 可 以 表达 4 个 数 
字 ， 所 以 这 种 类 型 的 布局 ， 在 一 个 32 位 比特 字 中 ， 可 以 存储 14 个 范围 
在 0 至 3 的 数字 ° 

类 似 地 ， 还 可 以 根据 B 的 不 同 大 小 设置 其 他 的 布局 方式 ， 图 4-9 给 
出 了 9 种 不 同 的 布局 ， 这 里 要 注意 的 是 : 对 于 有 些 宽 度 的 基本 构成 单 
元 ， 因 为 不 能 被 28 整 除 ， 所 以 在 数据 存储 区 会 有 字 区 被 废弃 不 用 。 比 
如 对 于 B 为 3 的 情况 ， 则 最 后 一 位 比特 位 被 废弃 (图 中 有 网 线 的 单元 指 
出 了 在 各 种 情况 下 废弃 的 比特 位 ) 。 

在 利用 Simple9 对 数据 进行 压缩 时 ， 首 先 读 取得 压缩 数值 队列 后 续 
的 28 个 数字 ， 如 采 发 现 这 28 个 数字 都 是 0 或 者 1， 那 么 说 明 可 以 利用 B = 
1 这 种 布局 来 存储 ， 则 将 28 个 数字 编码 为 二 进 制 后 存 入 28 个 数据 位 ， 同 
时 在 类 型 指示 位 标 出 这 种 类 型 。 如 果 发 现 有 大 于 1 的 数值 ， 说 明 B = 1 这 
个 布局 无 法 容纳 这 组 数据 ， 于 是 由 读 取 后 续 28 个 数字 改 为 读 取 后 续 的 
14 个 数字 ， 判 断 是 否 能 够 使 用 B = 2 这 种 布局 ， 即 判断 后 续 14 个 竺 压缩 
数据 是 否 都 在 0 到 3 的 数值 范围 ， 如 果 是 的 话 则 采取 B = 2 布局 压缩 ， 否 
则 继续 考虑 B =3 的 布局 ， 依 次 如 此 试探 ， 即 可 将 待 压缩 数字 都 表示 为 
固定 长 度 为 32 位 比特 的 压缩 表示 方式 。 

利用 Simple9 进 行 解 码 的 时 候 ， 因 为 编码 是 固定 长 度 的 ， 所 以 可 以 
一 次 读 取 4 个 字 节 〈 即 32 比 特 ) ， 从 4 比特 类 型 指示 位 判断 后 续 数 据 存 
储 区 是 哪 种 布局 方式 ， 对 于 每 种 布局 方式 可 以 事先 准备 好 对 应 的 掩 
码 ， 判 断 出 布局 方式 后 ， 直 接 利 用 掩 码 可 以 一 次 性 解压 出 后 续 的 多 个 

Simple16 等 后 续 改进 算法 在 Simple9 基 础 上 做 出 了 改进 ， 改 进 思 路 
大 致 相同 。 首 先 ，Simple9 的 类 型 指示 位 由 4 比特 位 构成 ， 即 说 明 其 可 以 
指示 16 种 不 同情 况 ， 而 Simple9 因 为 只 有 9 种 类 型 ， 所 以 并 未 完全 利用 这 


4 比特 指示 位 置 ， 可 以 将 9 种 布局 进行 扩展 ， 扩 展 为 更 多 种 布局 方式 ， 
Simple16 就 是 将 后 续 28 位 数据 存储 区 划分 为 16 种 组 成 方式 。 另 外 一 点 ， 
从 图 4-9 可 以 看 出 ，Simple9 在 有 些 布局 方式 下 会 有 废弃 比特 位 ， 而 这 明 
显 是 对 存储 资源 的 浪费 ， 可 以 考虑 如 何 将 其 利用 起 来 。Simple9 之 所 以 
会 出 现 废弃 位 ， 是 因为 它 对 28 位 数据 存储 区 是 等 宽度 划分 的 ， 所 以 必 
然 会 有 无 法 被 28 整 除 而 出 现 的 废弃 位 。Simple16 等 改进 算法 则 放宽 了 这 
种 要 求 ， 即 数据 存储 区 不 一 定 是 等 宽 的 ， 比 如 对 于 Simple9 的 B=5 的 状 
况 ， 可 以 划分 为 4 个 5 比特 及 后 续 的 两 个 4 比特 ， 这 样 就 可 以 全 部 利用 存 
储 区 的 位 置 ， 同 时 表达 能 力 得 到 增强 ， 即 在 压缩 时 ， 可 以 有 更 多 种 方 
式 来 进行 压缩 编码 。 


4.2.7 ”PForDelta 算 法 
PForDelta 压 缩 算法 是 目前 解压 速度 最 快 的 一 种 倒 排 文件 压缩 算 


法 ， 其 基本 出 发 点 是 : 尺 可 能 一 次 性 压缩 和 解压 多 个 数值 。 尺 管 
P E E 
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一 次 性 压缩 多 个 数值 面临 实际 困难 : 因为 连续 的 数值 序列 有 大 有 
小 ， 如 果 每 个 数值 按照 序列 中 最 大 的 数值 来 决定 比特 宽度 ， 很 明显 对 
于 小 数值 来 说 会 存在 空间 浪费 的 情形 ， 而 如 果 不 按照 最 大 数值 分 配 比 
特 宽度 ， 那 么 对 于 后 续 连 续 数 值 来 说 ， 因 为 比特 宽度 不 够 ， 存 在 有 些 
大 数值 无 法 表示 的 问题 。 

PForDelta 希 望 能 在 压缩 率 和 压缩 解压 速度 方面 找到 一 个 平衡 点 ， 
使 得 算法 可 以 一 次 压缩 解压 多 个 数值 。PForDelta 的 折 中 方案 是 : 对 于 
待 编 码 的 连续 K 个 数值 (一 般 K 取 128， 即 一 次 性 压缩 解压 128 个 数 
E) ， 找 出 其 中 10% 比 例 的 大 数 ， 根 据 剩 下 902% 的 数值 范围 来 决定 应 
该 采取 的 比特 宽度 ， 而 10% 的 大 数 则 当做 异常 数据 单独 存储 ， 即 采取 
了 “照顾 大 多 数 ” 的 原则 ， 对 于 少数 情况 做 特殊 处 理 。 

下 面 以 具体 实例 来 看 看 PForDelta 算 法 的 静态 结构 、 压 缩 过 程 及 解 
压 过 程 。 假 设 一 次 性 要 压缩 的 数值 序列 为 : 
24,40,9,13,31,67,19,44,22,10， 即 区 取 10， 另 外 为 了 方便 说 明 问题 ， 这 里 
取 30% 的 大 数 作为 异常 数 ， 而 在 真实 场景 K 往 往 取 128， 大 数 比 例 一 般 
有 取 10%。 图 4-10 是 PForDelta 算 法 压缩 以 上 数据 序列 后 形成 的 静态 结 
ee ee E eee 
H 腊 常 链表 头 。 


异常 数据 存储 区 存储 的 是 数值 序列 中 30 加 比例 的 大 数 ， 这 些 姑 党 
数值 不 做 压缩 编码 ， 每 个 数值 用 4 个 字 市 来 存储 ， 并 放置 在 静态 结构 的 
尾 端 ， 存 储 顺 序 与 其 在 原始 数值 序列 的 出 现 顺 序 相 反 。 

常规 数据 存储 区 则 存储 了 70% 的 小 数 及 一 个 异常 数据 链表 结构 ， 
在 上 述 例子 中 ， 除 了 30% 的 3 个 大 数 外 ， 最 大 的 数值 为 31， 所 以 为 了 能 
够 表示 这 70% 的 数值 ， 比 特 宽度 需要 设 定 为 5， 因 为 每 个 数值 利用 5 个 
比特 位 存储 ， 那 么 可 存储 的 最 大 数值 为 31， 这 样 束 保证 这 702% 的 数值 
都 可 以 以 等 长 的 比特 宽度 压缩 存储 。 尽 管 30% 的 大 数 已 经 说 存储 在 尾 
端 ， 但 是 为 了 能 够 记载 这 些 数 在 原始 序列 中 的 位 置信 息 ，PForDelta 在 
常规 数据 存储 区 维护 了 异常 大 数 的 一 个 顺序 链表 ， 比 如 对 于 异常 数值 
40， 其 常规 数据 存储 区 对 应 位 置 设 定 为 3， 含 义 是 指 跳 过 后 面 3 个 数值 
即 是 男 外 一 个 异常 大 数 的 位 置 ， 同 理 ， 数 值 67 的 对 应 位 置 设 定 为 1， 意 
即 跳 过 后 面 1 位 数值 即 是 后 续 的 异常 大 数位 置 ， 通 过 这 样 束 将 异常 大 数 
的 位 置信 息 保 留 下 来 ， 这 样 在 解压 的 时 候 能 够 快速 恢复 原始 数据 。 

异 币 链表 头 则 存放 一 个 指针 ， 指 癌 了 异 间 链表 的 第 1 个 数值 的 位 
置 ， 本 例 中 链表 头 的 值 为 1， 意 即 跳 过 后 续 一 个 常规 数值 即 可 获得 第 1 
1 通过 链表 头 ， 殊 可 以 将 所 有 异常 大 数 快 速 串 联 起 


以 上 介绍 的 是 PForDelta 算 法 的 静态 压缩 结构 ， 那 么 给 定 上 述 10 个 
待 压缩 数据 流 ， 是 如 何 形成 最 终 的 压缩 结构 的 ? PForDelta 采 取 了 3 个 步 
又 来 形成 压缩 结构 ， 图 4-11 展 示 了 这 3 个 连续 的 步骤 。 
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图 4-11 PForDelta 的 压缩 过 程 


第 1 步 ， 根 据 待 压缩 的 数据 流 ， 确 定 302% 比 例 的 大 数 个 数 及 分 别 是 
哪些 数值 ， 在 此 例 中 依次 为 40、67 和 44， 根 据 剩 下 的 7026 数 值 大 小 ， 
eee 此 时 即 可 确定 静态 结构 所 需 存储 区 

第 2 步 ， 对 原始 数据 循环 遍历 ， 本 步 又 主要 处 理 异 常 大 数 ， 一 方面 
将 过 到 的 大 数 逆 序 放置 到 静态 数据 尾 端 ， 男 一 方面 将 原先 的 异常 大 数 
转换 成 链表 结构 ， 所 以 3 个 异常 大 数 对 应 位 置 被 置换 成 3、1 和 2， 形 成 
了 链表 结构 。 

第 3 步 ， 一 次 性 将 所 有 10 个 数值 快速 压缩 ， 然 后 存 入 常规 数据 存储 
区 中 。 经 过 第 2 步 后 ， 可 以 保证 10 个 待 压缩 的 数据 都 在 32 以 下 ， 如 果 是 
这 样 就 可 以 采取 措施 快速 压缩 。 


通过 以 上 3 个 步 又 ， 即 可 对 多 个 数值 成 功 地 进行 一 次 性 压缩 ， 至 于 
解压 ， 则 可 以 理解 为 压缩 过 程 后 面 两 个 步骤 的 逆 过 程 ， 即 通过 两 般 完 
成 。 首 先 ， 一 次 性 将 常规 存储 区 的 10 个 数值 进行 解压 ， 然 后 根据 异常 
链表 头 ， 依 次 顺序 读 出 异常 大 数 的 位 置 ， 结 合 尾部 存储 的 异常 大 数 恢 
复原 始 数值 序列 。 

多 项 实验 表明 ，PForDelta 的 解压 速度 是 现 有 压缩 算法 里 最 快 的 ， 
而 且 性 能 大 幅度 超过 其 他 算法 。 主 要 原因 十 其 能 够 一 次 性 解压 多 个 数 
据 ， 尽 管 恢复 异常 数据 速度 比较 慢 ， 但 是 因为 其 所 占 比例 很 小 ， 所 以 
影响 不 大 ; 另 一 点 ，PForDelta 之 所 以 将 解压 设置 为 两 志方 式 ， 而 非 一 
遍 做 完 ， 是 为 了 在 程序 中 避免 做 IF-ELSE 这 种 分 支 判断 ， 因 为 大 量 分 支 
判断 严重 影响 解压 执行 速度 。 比 如 Simple9 算 法 解压 ， 每 4 个 字 节 就 需要 
做 一 次 分 文 判 断 ， 因 为 要 判断 压缩 数据 是 9 种 布局 中 的 哪 一 种 ， 而 变 长 
字 市 算法 解压 则 每 个 字 市 都 需要 做 分 文 判 断 ， 以 决定 当前 字 节 是 否 是 
某 个 数字 的 最 后 一 个 字 节 ， 相 对 应 地 ，PForDelta 在 其 解压 流程 中 是 不 
做 任何 分 文 判断 的 ， 这 也 是 其 速度 快 的 重要 原因 之 一 。 


4.3 ”文档 编号 重 排序 (DocID Reordering) 


对 于 搜索 引 敬 来 说 ， 在 建立 索引 的 过 程 中 ， 要 对 每 个 网 页 赋予 唯 
一 的 文档 编号 (文档 ID) ， 在 搜索 引 敬 内部， 都 以 文档 ID 来 标记 某 个 
网 页 ， 以 方便 搜索 引擎 内 部 处 理 。 常 见 的 做 法 是 随机 赋予 某 个 网 页 一 
个 编号 ， 比 如 可 以 根据 爬虫 抓 到 网 页 的 时 间 先 后 顺序 来 依次 顺序 编 
Bo 


索引 中 某 个 单词 的 倒 排列 表 ， 一 般 会 记录 包含 这 个 单词 的 所 有 网 
页 的 文档 ID 和 单词 词 频 信息 ， 索 引 压 缩 技术 可 以 有 效 压 缩 这 些 数 值 信 
轧 ， 以 增加 搜索 引擎 效率 。 对 于 索引 压缩 技术 来 说 ， 如 果 需 要 压缩 的 
原始 数据 的 值 越 小 ， 压 缩 效 末 越 好 ， 之 前 介绍 的 倒 排 列表 中 文档 ID 采 
用 D-Gap (文档 差 值 编号 ) 进行 编码 就 是 出 于 这 种 考虑 。 

文档 编号 重 排 序 技术 考虑 在 文档 编号 上 做 文章 ， 不 是 随机 赋予 网 
页 一 个 文档 ID， 而 是 通过 对 文档 ID 进行 更 加 合理 的 编号 ， 使 得 在 倒 排 
列表 中 相 邻 的 两 个 文档 其 编号 也 尽 可 能 相 邻 ， 这 样 可 以 使 相 邻 文档 的 
D-Gap 值 尽 可 能 小 ， 而 对 小 数值 采用 压缩 算法 效率 会 更 高 。 所 以 ， 这 个 
技术 的 核心 目的 是 : 重新 编排 文档 的 编号 ， 以 使 得 某 个 单词 倒 排 列表 
中 相 邻 的 两 个 文档 其 文档 编号 尽 可 能 相近 。 

为 了 达到 这 个 目的 ， 我们 布 望 内 容 越 相似 的 网 页 ， 在 编排 文档 编 
号 时 ， 其 文档 编号 越 相 邻 。 互 联网 包 仿 了 海量 的 网 页 数据 ， 但 十 这 些 
网 页 并 非 双 不 相干 ， 很 多 网 页 讲述 的 内 容 主 题 相 同 ， 这 些 内 容 相似 的 


网 页 所 使 用 的 词汇 有 很 大 一 部 分 古 重 登 的 ， 这 些 相同 的 单词 表达 了 这 
批 网 页 所 代表 的 主题 。 如 果 能 够 将 这 些 内 容 相 似 的 网 页 依次 编号 ， 那 
么 对 于 表达 主题 内 容 的 某 个 单词 来 说 ， 包 含 这 个 单词 的 大 部 分 网 页 的 
文档 编号 融 是 相近 的 ， 即 其 倒 排 列表 中 的 文档 编号 相信 ， 以 此 达到 该 
技术 的 核心 目标 。 
WS E gi eee 
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号 ， 得 到 以 下 网 页 集合 。 
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从 网 页 内 容 可 以 看 出 ， 文 档 1、 文 档 3 和 文档 5 讲述 相似 的 内 容 ， 同 
样 ， 文 档 2 和 文档 4 也 是 如 此 。 可 以 采用 文本 聚 类 的 方法 ， 将 内 容 相 似 
的 交 贡 聚合 在 一 起 ， 在 这 个 例子 里 ， 村 类 结果 有 两 个 ， 分 别 讲述 了 
YouTube 和 Facebook 公 司 的 新 闻 事 件 。 
接 下 来 ， 搜 索引 擎 将 重新 赋予 文档 编号 ， 基 本 原则 是 内 容 相 似 的 
网 页 赋予 相 邻 的 文档 编号 ， 于 是 网 页 获得 了 如 下 新 的 文档 编号 。 
新 的 文档 编号 网 页 内 容 
] 谷歌 确认 赫 利 将 辞去 YouTube CEO 职位 
Facebook 或 将 推出 社交 签到 功能 Deals 
YouTube 创始 人 兼 CEO 称 将 逐步 退 居 幕 后 
用 Facebook Places 到 歌手 广告 牌 签 到 
YouTube CEO PRAEH FEA EET PIA 
通过 以 上 的 文档 重新 编号 ， 对 索引 内 容 有 何 影响 ?图 413 给 出 了 文 
档 重 新 编号 前 后 索引 差异 的 图 示 。 这 里 需要 注意 的 是 : 为 了 便于 说 明 
倒 排 列表 只 包含 了 文档 ID ， 另 外 文档 ID 是 以 D-Gap 的 方式 存储 


wu EST O NH 


文档 ID 重 排序 后 索引 


图 4-13 ”文档 ID 重 排序 后 索引 内 容 的 变化 


我 们 以 单词 *YouTube” 为 例 ， 看 看 文档 重新 编号 前 后 索引 内 容 有 何 
变化 。 在 文档 重新 编号 之 前 ， 文 档 1、 文 档 3 和 文档 5 中 包含 
了 “YouTube”， 所 以 这 个 单词 对 应 的 倒 排 列表 中 应 该 记录 的 文档 ID 为 
{13,5}， 由 于 采用 D-Gap 方 式 ， 对 应 的 数值 为 相 邻 文档 编号 的 差 值 ， 即 
{1,2,2} ° 

经 过 文档 编号 重 排 序 ， 原 先 的 文档 3 重新 编号 为 文档 2， 原 先 的 文 
档 5 重新 编号 为 文档 3， 按 照 D-Gap 方 式 ， 单 词 *YouTube” 对 应 的 倒 排列 
表 为 {111}， 即 原先 的 文档 编号 差 值 2 都 变 为 了 差 值 1。 索 引 中 的 其 他 
单词 倒 排 列表 变化 也 都 类 此 。 通 过 这 种 方式 ， 就 将 倒 排 列表 中 需要 记 
孙 的 文档 编号 有 效 地 减 小 ， 在 此 基础 上 运用 索引 压缩 算法 ， 可 以 获得 
更 高 的 压缩 率 。 

以 上 介绍 的 方法 基本 体现 了 文档 编号 重 排序 技术 的 基本 思想 和 流 
程 ， 在 这 个 流程 里 ， 文 本 育 类 是 个 很 重要 的 组 成 部 分 ， 但 是 互联 网 网 
页 数据 量 非常 大 ， 面 对 海量 数据 ， 文 本 聚 类 的 速度 难以 满足 实际 需 
求 。 相 关 研 究 人 员 提 出 了 一 些 启发 规则 来 改善 这 种 状况 ， 一 种 非常 有 
效 的 局 发 规则 是 : 将 页 面 URL 相 似 的 网 页 聚合 在 一 起 。 这 里 主要 考虑 
到 ， 同 一 个 网 站 的 很 多 页 面 表达 的 主题 内 容 是 近似 的 ， 通 过 这 种 方式 
可 以 非常 高 效 地 将 网 页 聚合 在 一 起 ， 之 后 根据 聚 类 结果 对 文档 ID 进行 
重新 编号 (参考 图 4-14 所 示 ) ， 这 样 就 可 以 高 效 地 完成 文档 编号 重 排序 


任务 。 


Doc1; http://www.google.com 
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文档 了 重 排序 
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图 4-14 nn eee 
4.4 静态 索引 裁剪 (Static Index Pruning) 


本 章 前 述 压缩 算法 都 属于 无 损 压 缩 ， 即 数据 在 压缩 前 后 没有 任何 
2 As TY Be Vr ESR Ss IRINE T A MEA, 通过 主动 抛弃 一 
部 分 不 重要 的 信息 来 达到 更 好 的 数据 压缩 效果 。 

静态 索引 裁 草 的 出 发 点 是 基于 如 下 考虑 : 对 于 用 户 查 询 来 说 ， 搜 
索 系 统 往往 只 需要 返回 相关 性 最 高 的 K 个 网 页 ， 不 需要 将 所 有 相关 网 页 
都 呈现 给 用 户 。 既 然 如 此 ， 对 于 词典 中 的 某 个 单词 ， 其 对 应 的 倒 排 列 
表 中 的 索引 项 ， 对 计算 网 页 和 用 户 查 询 最 终 相 关 性 得 分 的 贡献 是 不 同 
的 ， 有 的 对 于 计算 最 终 得 分 很 重要 ， 8 SIU EAB BE 。 所 以 可 以 
将 那些 不 重要 的 索引 项 从 倒 排 索引 中 清除 挥 ， 只 保留 重要 的 索引 项 ， 
这 样 就 有 效 地 减少 了 索引 的 大 小 ， 同 时 尽 可 能 保证 搜索 质量 ， 使 得 用 
户 基本 察觉 不 到 索引 项 是 不 完整 的 。 


静态 索引 裁 级 在 以 上 出 发 点 的 基础 上 ， 在 具体 设计 算法 时 ， 大 体 
有 两 种 不 同 的 思路 ， 一 种 被 称 为 以 单词 为 中 心 的 索引 裁剪 ， 一 种 被 称 
KAAKE ORIIRE 


4.41 ”以 单词 为 中 心 的 索引 裁剪 


对 于 某 个 单词 来 说 ， 其 对 应 的 倒 排 列表 记载 了 出 现 这 个 单词 的 文 
档 编号 信息 ， 以 单词 为 中 心 的 索引 剪裁 ， 其 剪裁 对 象 就 是 单词 对 应 倒 
排列 表 中 的 文档 © 

假设 我 们 已 经 有 了 一 个 相似 性 计算 函数 g (term,doc) ， 这 个 函数 
可 以 计算 倒 排 索引 中 某 个 单词 和 其 对 应 倒 排 列表 某 个 文档 的 相似 性 

(详情 请 参考 本 书 第 5 章 ) ， 那 么 就 可 以 利用 这 个 函数 的 计算 结果 来 作 
为 是 否 保留 某 个 索引 项 的 评判 标准 。 

图 4-15 给 出 了 以 单词 为 中 心 的 索引 裁剪 示意 图 。 对 于 词典 中 的 单 
词 “ 搜 索引 警 ” 来 说 ， 其 倒 排 列表 中 包含 4 个 文档 : 文档 1、 文 档 3、 文 档 
4 和 文档 7。 画 数 g 用 来 计算 文档 和 单词 “搜索 引擎 ”的 相关 性 ， 通 过 函数 
g 分 别 得 出 对 应 的 得 分 ， 其 中 文档 1 的 得 分 为 0.3， 文 档 2 的 得 分 为 0.25， 
文档 3 的 得 分 为 0.4， 文 档 7 的 得 分 为 0.18。 


g( “搜索 引擎 ”， doc x) 
| Sa 


a” ~, 


图 4-15 ”以 单词 为 中 心 的 索引 裁剪 


一 种 直观 的 裁 蔓 方 法 是 设 定 一 个 相似 性 得 分 国 值 ， 只 要 通过 函数 g 
计算 的 得 分 低 于 这 个 国 值 ， 则 清除 掉 这 个 索引 项 ， 如 有 果 得 分 高 于 这 个 
盖 值 ， 则 保留 索引 项 。 比 如 我 们 设 定 阐 值 b 为 0.35， 则 对 于 “搜索 引 
擎 "这 个 单词 来 说 ， 其 倒 排 列表 中 的 索引 项 只 有 文档 4 被 保留 ， 其 他 3 个 
索引 项 被 清除 ， 这 样 束 有 效 地 减少 了 倒 排 索引 的 大 小 。 同 时 ， 因 为 保 


留 了 相关 性 得 分 较 高 的 文档 索引 项 ， 所 以 对 搜索 前 列 结果 没有 大 的 影 
啊 ， 不 会 损害 用 户 搜索 体 难 。 

但 是 这 个 直观 方法 人 为 设 定 了 一 个 全 局 国 值 p， 而 这 个 国 值 不 考虑 
词典 中 单词 的 具体 情况 ， 统 一 使 用 同一 设 定 值 ， 这 样 做 会 市 来 问题 ， 
假设 我 们 设 定 国 值 b 为 0.45， 那 么 对 于 “搜索 引擎 ”这 个 单词 来 说 ， 其 所 
有 索引 项 都 会 被 清除 抒 ， 这 并 不 是 我 们 希望 看 到 的 ， 因 为 如 条 有 用 户 
以 “搜索 引擎 ”作为 查询 的 时 候 ， 搜 索 系 统 的 返回 结果 为 空 ， 而 全 局 性 
国 值 总 是 难免 将 某 些 单词 的 索引 项 全 部 清除 。 

为 了 解决 以 上 问题 ， 可 以 增加 一 个 约束 条 件 : 每 个 词典 中 的 单 
词 ， 其 对 应 的 倒 排 列表 中 都 应 该 至 少 保留 K 个 索引 项 ， 这 个 K 可 根据 具 
体 情 况 来 设 定 ， 比 如 可 以 设 定 其 为 搜索 引擎 的 玖 认 返 回 结果 条 数 。 增 
加 以 上 约束 后 ， 可 以 采用 更 加 复杂 和 灵活 的 策略 来 对 索引 进行 及 裁 ， 
我 们 以 如 图 4-16 所 示 的 具体 例子 来 说 明 这 个 新 的 草 裁 方式 。 在 这 个 例子 
中 ， 我 们 考虑 词典 中 的 两 个 单词 ， 一 个 是 单词 "搜索 引擎 >， 其 倒 排列 
表 和 上 文 所 述 例子 一 致 ， 另 一 个 单词 “技术 ”， 其 倒 排列 表 包 含 两 个 索 
引 项 : 文档 2 和 文档 3。 男 外 ， 这 里 设 定 K 为 2， 即 搜索 引擎 默认 输出 两 
个 结果 。 需 要 说 明 ， 实 际 搜 索引 擎 的 这 个 数值 一 般 较 大 ， 这 里 的 设 定 
是 为 了 方便 说 明 问 题 。 
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g( "RAR" , docx) 


图 4-16 ”理想 的 索引 裁剪 方式 


新 的 裁剪 策略 采取 如 下 方式 : 每 个 单词 至 少 保留 K 个 索引 项 ， 如 有 果 
本 身 索引 项 不 足 K 个 ， 那 么 就 全 部 保留 ， 对 于 这 些 单词 的 倒 排 列表 不 做 
裁 甬 。 比 如 图 中 的 单词 “技术 ”， 因 为 只 有 两 项 ， 所 以 不 做 裁剪。 

对 于 多 于 K 个 索引 项 的 单词 ， 首 移 用 g 函 数 对 每 个 文档 和 单词 的 相 
关 度 进行 打分 ， 根 据 得 分 对 文档 由 高 到 低 排序 ， 因 为 我 们 至 少 要 保留 K 
项 ， 所 以 得 分 排 在 前 K 个 的 索引 项 是 需要 保留 的 项 目 ， 但 是 只 保留 K 项 
还 不 够 ， 系 统 还 需要 留 些 富余 项 目 ， 即 那些 分 数 比 第 K 项 得 分 稍 低 些 的 
项 目 也 可 以 保留 下 来 ， 不 做 裁剪 。 为 了 达到 这 个 目的 ， 可 以 对 第 K 个 的 
得 分 进行 打折 ， 即 乘 上 一 个 折扣 因子 ， 得 出 一 个 赋值 a， 剩 下 的 项 目 ， 
RSET ti INT BE, UR, ARTUR TBE, MRBS H 。 
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如 图 4-16 所 示 ， 其 得 分 由 高 到 低 分 别 为 ， 文档 4、 文 档 1、 文 档 3 和 文档 
7。 因 为 K 被 设 定 为 2， 所 以 可 以 确定 保留 的 是 文档 4 和 文档 1， 文 档 1 的 


得 分 为 0.3。 进 一 步 ， 为 了 能 够 留 下 富余 项 ， 考 虑 对 0.3 进 行 折扣 ， 设 定 
折扣 因子 a 为 0.7， 由 此 得 出 阔 值 0.21， 因 为 文档 3 得 分 高 于 阔 值 ， 所 以 
保留 ， 文 档 7 的 得 分 低 于 病 值 ， 所 以 被 裁 榴 挥 。 对 于 词典 中 每 个 单词 者 
按照 以 上 规则 进行 裁 蔓 ， 则 完成 了 整个 索引 的 静态 裁 勇 过 程 ， 得 到 一 
个 缩水 版 的 索引 。 

为 什么 要 在 这 里 保留 富余 索引 项 呢 ? 我 们 还 是 以 图 4-16 来 说 明 其 原 
。 如 采 不 做 富余 项 保留 ， 可 以 看 到 ， 对 于 单词 “搜索 引擎 ”来 说 ， 只 
保留 文 梢 4 和 文档 1， 文 档 3 会 被 裁剪 掉 。 假 设 用 户 输入 的 查询 为 “搜索 
引擎 ” 反 术 ?两 个 单词 ， 从 其 各 目 得 分 情况 可 以 看 出 ， 对 于 这 个 得 询 来 
说 ， 文 档 3 是 综合 得 分 最 高 的 ， 应 该 排 在 搜索 结果 头条 ， 但 是 如 采 将 其 
索引 项 裁 王 后 ， 其 排名 将 大 幅 下 降 ， 如 末 古 其 他 例 了 于， 甚至 可 能 导致 
本 应 被 搜索 到 的 结果 无 法 搜索 出 来 。 所 以 保留 言 余 系 引 项 十 出 于 人 证 
复杂 查询 的 搜索 质量 考虑 的 。 

以 上 是 一 个 灵活 的 “理想 化 ? 表 态 索引 裁 航 过 程 ， 之 所 以 说 是 理想 
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多 少 索 引 项 。 后 续 实 验证 明 ， 如 果 自 完 对 所 有 索引 项 的 原始 得 分 减 去 
得 分 最 低 索 引 项 的 得 分 〈 在 图 4-16 中 ， 对 于 “搜索 引擎 "这 个 单词 来 说 ， 
就 是 所 有 索引 项 得 分 减 去 文档 7 的 得 分 0.18) ， 之 后 再 采取 如 上 的 裁剪 
过 程 ， 则 戏 膝 会 得 到 很 大 的 提升 。 其 中 原因 可 能 是 因为 索引 项 得 分 相 
差 不 大 ， 比 较 集 中 在 某 个 区 间 ， 所 以 减 去 得 分 最 低 项 的 得 分 ， 等 价 于 
将 分 数 评价 标准 精度 提高 ， 此 时 对 于 原先 细微 的 得 分 差异 也 可 以 进行 
裁 豆 。 在 如 图 4-16 所 示 的 例子 中 ， 如 来 采取 这 种 调整 策略 ， 单 词 “ 搜 索 
引 敬 ”对 应 的 倒 排 列表 中 ， 文 档 3 会 被 裁 鸡 挥 ， 而 之 前 理想 化 裁 豌 方案 
则 是 予以 保留 的 ， 所 以 这 种 方式 的 压缩 率 相 对 大 些 。 


4.4.2 ”以 文档 为 中 心 的 索引 裁剪 
以 单词 为 中 心 的 索引 裁剪 在 建 好 的 倒 排 索引 基础 上 对 索引 项 进行 


删除 ， 而 以 文档 为 中 心 的 索引 豌 裁 则 可 以 认为 是 在 建立 索引 之 前 进行 
的 数据 预 处 理 措施 。 图 4-17 是 这 种 裁剪 方式 的 示意 图 。 


文档 集合 倒 排 索引 
图 4-17 ”以 文档 为 中 心 的 索引 裁剪 


我 们 知道 ， 尽 党 一 篇 文档 包 侣 很 多 单词 ， 但 是 这 些 单 词 对 于 表达 
文档 主题 作用 是 不 一 样 的 ， 有 些 单词 对 于 文档 主题 表达 是 必 不 可 人 少 
的 ， 而 有 些 单 词 则 不 是 那么 重要 。 

以 文档 为 中 心 的 索引 裁 筋 首先 判断 文档 所 包含 单词 的 重要 性 ， 经 
过 一 定 的 重要 性 得 分 计算 ， 傈 留 重要 单词 ， 抛 弃 不 重要 的 单词 。 肯 多 
对 每 个 文档 先进 行 缩 水 ， 然 后 在 此 基础 上 建立 倒 排 索引 ， 这 同样 能 够 
达到 减 小 索引 大 小 的 目的 。 不 过 与 以 单词 为 中 心 的 索引 裁 王 相 比 ， 这 
种 方式 对 于 有 些 单词 来 说 ， 其 倒 排 列表 为 至 ， 比 较 极 端 但 是 直观 的 例 
子 就 是 停 用 词 ， 比 如 “的 ?等 单词 ， 因 为 不 能 表达 意义 ， 这 些 单词 在 绝 
KERRU PARR, SBS, mAAR HAPORI] 
裁剪 则 能 控制 索引 项 个 数 ， 以 保证 单词 的 索引 项 不 空 ， 所 以 是 比 以 文 
FA PUD AIRS | BY E A TTI o 


本 章 提要 


: 搜索 引 敬 索引 压缩 包括 对 词典 的 压缩 和 对 倒 排 列表 的 压缩 。 
针对 倒 排 列表 的 压缩 可 分 为 无 损 压缩 和 有 损 压 缩 两 种 ， 无 损 压 
缩 更 常用 些 ， 有 损 压缩 只 在 特殊 场合 使 用 。 
一 元 编码 和 二 进 制 编码 是 所 有 倒 排 列表 压缩 算法 的 基本 构件 ， 
不 论 具 体 压 缩 算 法 如 何 ， 最 终 都 要 落实 到 这 两 种 方法 上 © 
和 常用 的 压缩 算法 包括 : Elias Gamma 算 法 、Elias Delta 算 法 、 
Golomb 算 法 、Rice 算 法 、 变 长 字 市 算法 、SimpleX 系 列 算法 和 PForDelta 
~k a a Rl eee ene aes 


文档 ID 重 排 序 通过 文档 聚 类 并 重 排 文 档 ID 编 号 来 获得 较 高 的 索 

引 压 缩 率 。 
静态 索引 裁 瘟 古 一 种 有 损 压 缩 算法 ， 通 过 抛弃 一 部 分 不 重要 的 
索引 项 来 获得 较 好 的 压缩 效 采 。 
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第 5 章 ”检索 模型 与 搜索 排序 


ELAR TARAS, TERRA ARS, MOH +R. 
之 道 ， 将 不 可 以 不 尚 贤 。 夫 尚 贤 者 ， 政 之 本 也 。” 
(OSZT (MRE) 


搜索 结果 排序 是 搜索 引擎 最 核心 的 构成 部 分 ， 很 大 程度 上 决定 了 
搜索 引擎 的 质量 好 坏 及 用 户 接受 与 否 。 尽 管 搜 索引 擎 在 实际 结果 排序 
时 融合 了 上 百 种 排序 因子 ， 但 最 重要 的 两 个 因素 还 是 用 户 查 询 和 网 页 
的 内 容 相关 性 及 网 页 链接 情况 ， 关 于 网 页 链接 分 析 算 法 在 本 书 第 6 章 有 
详 述 ， 本 章 主要 介绍 的 是 : 给 定 用 户 搜索 词 ， 如 何 从 内 容 相关 性 的 角 
度 对 网 页 进行 排序 。 

判断 网 页 内 容 是 否 与 用 户 查 询 相关 ， 这 依赖 于 搜索 引擎 所 采用 的 
检索 模型 。 关 于 检索 模型 的 研究 ， 从 信息 检索 学 科 建立 之 初 就 一 直 是 
研究 重点 ， 到 目前 为 止 ， 已 经 提出 了 多 种 各 异 的 模型 ， 本 章 将 介绍 其 
中 最 重要 的 几 种 检索 模型 :布尔 模型 、 向 量 空间 模型 、 概 率 模型 、 语 
言 模型 及 最 近 几 年 兴起 的 机 妖 学 习 排 序 算法 。 

尽管 检索 模型 多 种 多 样 ， 但 其 在 搜索 引 敬 中 所 处 的 位 置 和 功能 是 
相同 的 ， 图 5-1 给 出 了 一 个 搜索 引擎 计算 内 容 相 似 性 的 框架 。 当 用 户 产 
生 了 信息 需求 后 ， 构 造 查询 词 ， 以 此 作为 信息 需求 的 具体 体现 ， 搜 索 
引擎 在 内 部 会 对 用 户 的 得 询 词 构造 内 部 的 查询 表示 方法 。 对 于 海量 的 
网 页 或 者 文档 集合 ， 对 每 个 文档 ， 在 搜索 系统 内 部 也 有 相应 的 文档 表 
示 方 法 。 搜 索引 擎 的 核心 是 判断 哪些 文档 是 和 用 户 需 求 相 关 的 ， 并 按 
照相 关 程度 排序 输出 ， 所 以 相关 度 计算 是 将 用 户 查 询 和 文档 内 容 进行 
匹配 的 过 程 ， 而 检索 模型 就 是 用 来 计算 内 容 相关 度 的 理论 基础 及 核心 


Bf 


we 
2 
用 户 检索 结果 检索 模型 
< 


图 5-1 ”内容 相似 性 计算 框架 


什么 样 的 检索 模型 是 个 好 模型 呢 ? 用 户 发 出 查询 词 Q 后 ， 我 们 可 以 
把 要 搜索 的 文档 集合 按照 是否 相 关 ” 及 “是 否 包含 查询 词 ?两 个 维度 ， 将 
其 划分 为 4 个 象限 (参见 图 5-2) ， 其 中 ， 第 一 象限 的 文档 出 现 了 用 户 查 
询 词 同时 被 用 户 判 定 为 相关 的 ; 第 二 象限 的 文档 不 包含 用 户 查 询 词 但 
征 被 用 户 判断 为 相关 的 ; 第 三 象限 的 文档 出 现 了 用 户 查 询 词 但 被 用 户 
判定 为 不 相关 的 ， 而 第 四 象限 的 文档 则 是 不 包含 用 户 查 询 词 且 被 用 户 
判断 为 不 相关 的 。 一 个 好 的 检索 模型 应 该 做 到 的 是 ， 在 排序 结果 中 ， 
Aa 抑制 第 三 象限 和 第 四 象限 文档 


图 5.2 文档 划分 的 4 个 人 象限 一 
读者 看 图 5-2 可 能 会 产生 疑问 : 如果 文档 不 包含 查询 词 ， 会 是 相关 


的 搜索 结果 吗 ? 答案 很 明显 是 肯定 的 ， 比 如 用 户 搜索 “电脑 ”， 如 采 一 
个 文档 没有 出 现 过 这 个 单词 ,但 是 出 现 了 “PC” 或 者 “计算 机 ”， 那 也 是 
相关 的 。 至 于 处 理 此 种 情况 ， 往 往 是 查询 扩展 技术 或 者 语义 搜索 讨论 
的 范围 ， 目 前 绝 大 多 数 检索 模型 考虑 的 文档 对 象 主 要 是 第 一 象限 和 第 
三 象限 的 对 象 ， 即 一 定 出 现 搜 索 词 的 文档 。 

这 里 需要 注意 的 一 点 是 : 检索 模型 理论 研究 都 存在 理想 化 的 隐 合 
假设 ， 即 假设 用 户 需求 已 经 通过 查询 非常 清晰 明确 地 被 表达 出 来 ， 所 
以 检索 模型 的 任务 不 牵扯 到 对 用 户 需 求 建 模 。 很 明显 这 与 事实 相距 其 
远 ， 即 使 是 相同 的 查询 词 ， 不 同 用 户 的 需求 目的 可 能 差异 很 大 ， 而 检 
索 模 型 对 此 无 能 为 力 。 所 以 可 以 将 检索 模型 看 做 是 : 在 用 户 需求 已 经 
很 明确 地 由 查询 词 表 征 的 情况 下 ， 如 何 找 出 内 容 相 关 的 文档 。 如 采 碍 
询 词 不 能 精确 代表 用 户 真实 需求 ， 那 么 无 论 检 索 模 型 再 优秀 也 无 济 于 
事 ， 这 是 为 何 搜索 引擎 发 展 到 目前 阶段 ， 重 点 转向 了 填补 用 户 真实 需 
求 和 发 出 的 查询 词 之 间 的 鸿沟 的 原因 ， 此 发 展 趋势 有 其 必然 性 。 


5.1 布尔 模型 (Boolean Model) 


布尔 模型 站 检索 模型 中 最 侧 单 的 一 种 ， 其 数学 基础 生 集 合 论 。 在 
布尔 模型 中 ， 文 档 与 用 户 查 询 由 其 包含 的 单词 集合 来 表示 ， 两 着 的 相 
似 性 则 通过 布尔 代数 运算 来 进行 判定 。 

用 户 查 询 一 般 使 用 逻辑 表达 式 ， 即 使 用 “与 了 或/ 非 ” 这 些 逻 辑 连 接 
uel 询 词 串 联 ， 以 此 作为 用 户 的 信息 需求 的 表达 。 比 如 用 户 

望 查 找 和 苹 末 公司 相关 的 信息 ， 可 以 用 以 下 逻辑 表达 式 来 作为 但 


苹果 AND (乔布斯 OR iPad2) 

其 代表 的 含义 是 : 如 果 一 篇 文档 包含 单词 “苹果 ”， 同 时 也 包含 单 
词 “ 乔 布 斯 ”或 者 “iPad2” 两 者 其 中 的 任意 一 个 ， 那么 这 个 文档 就 是 满足 
用 户 需求 的 。 所 以 对 于 布尔 模型 来 说 ， 满 足 用 户 逻 辑 表达 式 的 文档 束 
算是 相关 的 。 

我 们 以 具体 例子 来 说 明 ， 图 5-3 是 一 个 文档 集合 ， 其 中 包含 5 个 文 
档 ， 每 个 文档 的 内 容 在 图 5-3 中 都 已 标 出 。 为 了 简单 起 见 ， 我 们 只 考 
EGER” “乔布斯 ”和 “ipPad2” 这 3 个 单词 ， 在 搜索 系统 内 部 ， 单 词 一 文 
档 窍 阵 如 图 5-4 所 示 ， 其 代表 的 含义 是 单词 出 现在 哪些 文档 中 ， 比 如 对 
于 单词 “苹果 ”来 说 ， 文 档 D2、D3、D5 包 含 这 个 单词 ， 在 图 中 以 对 钧 来 
表达 这 一 状况 ， 其 他 单词 文档 关系 与 此 类 似 。 


D 1: 乔布斯 最 新 近 照 曝光 略 显 消 瘦 。 
D2: 分 析 师 称 便 果 今 年 仍 将 占据 大 多 数 触 摸 屏 产能 。 
D3: 苹果 公司 首席 执行 官 史 带 夫 。 乔 布 斯 宣布 , iPad2 将 于 3 月 11 日 在 美国 上 市 。 


D4: 乔布斯 推动 了 世界 , iPod、iPhone、ipPad、ipP ad2 ， 一 款 一 款 接连 不 断 。 
D5: 乔布斯 出 门 买 了 四 袋 苹果 。 


图 5-3 文档 集合 


QQ= 苹 果 AND ( 乔布斯 OR iPad2) 


图 5-4 ”单词 一 文档 矩阵 


假设 此 时 搜索 系统 接收 到 了 用 户 查 询 : “苹果 AND (乔布斯 OR 
iPad2) ”， 搜 索 系 统 会 检查 单词 一 文档 矩阵 ， 找 出 满足 这 个 逻辑 表达 式 
的 文档 。 对 于 逻辑 表达 式 《 (乔布斯 OR iPad2) “Kit, HEME: 文档 
需要 包含 单词 “乔布斯 ”或 者 单词 “ipPad2” 中 任意 一 个 。 从 单词 一 文档 矩 
阵 可 以 看 出 ， 满 足 这 个 逻辑 条 件 的 文档 包括 D1、D3、D4、D5， 而 包 
含 * 苹 果 ” 这 个 单词 的 文档 集合 是 D2、D3、D5。 按 照 用 户 查 询 的 要 求 ， 
两 个 集合 求 交 集 ， 得 出 D3、D5。 这 两 个 文档 就 是 满足 整个 逻辑 表达 式 
的 文档 ， 将 其 输出 即 为 搜索 结果 。 

由 上 可 看 出 ， 布 尔 模型 简单 直观 ， 但 是 正 是 因为 其 简单 性 ， 导 致 
一 些 明 显 的 缺点 。 从 上 面 例子 可 以 看 出 ， 只 要 文档 满足 逻辑 表达 式 ， 
就 会 被 认为 是 相关 的 ， 其 他 文档 被 认为 是 不 相关 的 ， 即 其 结果 输出 是 
二 元 的 ， 要 么 相关 要 么 不 相关 ， 至 于 文档 在 多 大 程度 上 和 用 户 查 询 相 
关 ， 能 否 按照 相关 程度 排序 输出 搜索 结果 ? 这 些 布尔 模型 都 无 能 大 
力 ， 所 以 无 法 对 搜索 结果 根据 相关 性 进行 排序 ， 其 搜索 结果 过 于 粗 
糙 。 同 时 ， 对 于 普通 用 户 来 说 ， 要 求 其 以 布尔 表达 式 的 方式 构建 查 
询 ， 无 颖 要 求 过 高 。 


5.2 向量 空 间 模型 (Vector Space Model) 


问 量 空 间 模型 历史 和 悠久， 最 初 由 信息 检索 领域 黄 基 人 Salton 教 授 提 
出 ， 经 过 相关 学 科 几 十 年 的 探索 ， 目 前 已 经 是 非常 成 熟 和 基础 的 检索 
模型 。 回 量 空 间 模型 作为 一 种 文档 表示 和 相似 性 计算 的 工具 ， 不 仅仅 
在 搜索 领域 ,在 上 自然 语言 处 理 、 文 本 挖 抓 等 诸多 其 他 领域 也 是 普遍 采 
用 的 有 效 工 具 。 


5.2.1 ”文档 表示 


作为 表示 文档 的 工具 ， 向 量 空间 模型 把 每 个 文档 看 做 是 由 t 维 特征 
组 成 的 一 个 同 量 ， 特 征 的 定义 可 以 采取 不 同方 式 ， 可 以 是 单词 、 词 
组 、N-gram 片 段 等 多 种 形式 ， 最 常用 的 还 是 以 单词 作为 特征 。 其 中 每 
个 特征 会 根据 一 定 依据 计算 其 权重 ， 这 t 维 带 有 权重 的 特征 共同 构成 了 
一 个 文档 ， 以 此 来 表示 文档 的 主题 内 容 。 

图 5-5 展 示 了 4 个 文档 在 3 维 向 量 空间 中 如 何 表 示 ， 比 如 对 于 文档 ?来 
说 ， 由 3 个 带 有 权重 的 特征 组 成 {w21,w22,w23}，w21 代 表 了 第 2 个 文档 
的 第 1 维特 征 的 权重 ， 其 他 的 权 值 代表 相似 含义 。 在 实际 应 用 系统 中 ， 
维度 是 非常 高 的 ， 达 到 成 千 上 万 维 很 正常 ， 图 中 为 了 简化 说 明 ， 只 列 
出 3 个 维度 。 在 搜索 这 种 应 用 环境 下 ， 用 户 查 询 可 以 被 看 做 是 一 个 特殊 
的 文档 ， 将 其 也 转换 成 t 维 的 特征 向 量 。 至 于 特征 的 权 值 如 何 计算 ， 本 
忆 后 面 会 专门 讲述 。 


图 5-5 ”向 量 空 间 模型 中 的 文档 表示 


图 5-6 展 示 的 是 具体 的 文档 表示 实例 ， 对 于 文档 D4 和 D5 及 用 户 查 
询 ， 通 过 特征 转换 ， 可 以 将 其 转换 为 带 有 权 值 的 向 量 表 示 。 


D4: 乔布斯 推动 了 世界 , iPod、iPhone、iP ad、iP ad2， 一 款 一 款 接连 不 断 ， 
D5: 乔布斯 出 门 买 了 四 袋 苹果 。 


Query: 乔布斯 iPad2. 


转换 为 特征 癌 量 


Q uery 0.0 1.2 0.6 
图 5-6 将 文档 转换 为 特征 向 量 
5.2.2 ”相似 性 计算 


将 文档 转换 为 特征 同 量 后 ， 束 可 以 计算 文档 之 间或 者 是 查询 和 文 
档 之 则 的 相似 性 了 。 对 于 搜索 排序 这 种 任务 来 说 ， 给 定 用 户 输入 的 查 
询 ， 理 论 上 应 该 计算 查询 和 网 页 内 容 之 间 的 “相关 性 *"”， 即 文档 是 否 和 
用 户 需 求 相 关 ， 之 后 按照 相关 程度 由 高 到 低 排 序 。 向 量 空间 模型 将 问 
题 做 了 转换 ， 即 以 查询 和 文档 之 间 的 内 容 相似 性 来 作为 相关 性 的 殖 
代 ， 按 照 文档 和 查询 的 相似 性 得 分 由 高 到 低 排序 作为 搜索 结果， 但 是 
要 注意 ， 两 者 并 非 等 同 的 概念 。 

给 是 用 户 查 询 特 征 同 量 和 文档 特征 癌 量 ， 如 何 计 算 其 内 容 相 似 
PE? Cosine 相 似 性 是 最 第 用 也 十 非 第 有 效 的 计算 相似 性 的 方式 。Cosine 
相似 性 计算 定义 如 下 : 


Cosine(Q,D;) = 


t 
Dies wijxqj 


Pi=1 wh X=1 qj 


N 


这 个 公式 计算 用 户 碍 询 Q 和 Di 文档 的 相似 性 ， 公 式 中 的 分 子 部 分 ， 
将 文档 的 每 个 特征 权 值 和 查询 的 每 个 特征 权 值 相 乘 取 和 ， 这 个 过 程 也 
叫做 求 两 个 向 量 的 点 积 ， 公 式 的 分 母 部 分 是 两 个 特征 向 量 在 欧式 空间 
中 长 度 的 乘积 ， 作 为 对 点 积 计算 结果 的 规范 化 。 之 所 以 要 对 特征 向 量 
的 长 度 做 规范 化 操作 ， 主 要 是 对 长 文档 的 一 种 签到 机 制 ， 否 则 的 话 ， 
计算 结果 往往 是 长 文档 得 分 较 高 ， 而 这 并 非 因为 长 文档 与 查询 更 相 
关 ， 而 是 因为 其 长 度 较 长 ， 导 致 特征 权 值 比 短文 档 要 大 ， 所 以 加 入 规 
范 化 操作 抑制 长 文档 在 排序 中 的 位 置 。 

Cosine 公 式 中 的 规范 化 方法 有 一 个 明显 的 缺陷 ， 即 存在 对 长 文档 的 
过 分 抑制 : 如果 同时 有 相关 的 短文 档 和 长 文档 ， 它 会 使 短文 档 的 相关 
度数 值 大 大 高 于 长 文档 的 相关 度数 值 。 设 想 以 下 情况 ， 一 篇 短文 档 ， 
与 某 主 题 相 关 ; 一 访 长 文档 ， 除 了 与 这 个 主题 相关 之 外 还 讨论 了 多 个 
其 他 主题 ， 其 中 与 这 个 主题 相关 的 部 分 词 频 与 短文 档 相 仿 。 在 这 种 情 
况 下 ， 两 篇 文档 中 有 关 这 个 主题 的 特征 词 的 权 值 大 致 相当 ， 长 文档 由 
于 包含 的 索引 词 很 多 ， 文 档 向 量 长 度 比 较 大 ， 规 范 化 之 后 有 关 这 个 主 
题 的 特征 词 的 权重 会 比 短 文档 小 得 多 。 于 是 ， 经 过 相似 度 计算 ， 短文 
档 得 到 的 相关 度数 值 会 比 长 文档 高 得 多 。 在 TREC 测 试 任务 中 可 以 很 清 
楚 地 观察 到 这 种 现象 .使 用 Cosine 规 范 化 方法 ， 对 于 一 个 包含 4 个 词 的 
查询 ， 返 回 的 第 1 个 结 琳 大 多 数 是 10 个 词 以 下 的 文档 。 

为 了 便于 理解 Cosine 相 似 性 ， 可 以 将 每 个 文档 及 查询 看 做 是 t 维 特 
征 空 间 中 的 一 个 数值 点 ， 每 个 特征 形成 维 空间 中 的 一 个 维度 ， 连 接 特 
征 空间 原点 和 这 个 数值 点 形成 一 个 同 量 ， 而 Cosine 相 似 性 束 古 计算 特征 
空间 中 两 个 向 量 之 则 的 夹 朋 ， 这 个 来 角 越 小 ， 说 明 两 个 特征 癌 量 内 容 
越 相似 ， 夹 角 越 大 ， 说 明 两 个 器 量 内 容 越 不 同 。 考 虑 一 种 极端 情况 : 
两 个 完全 相同 的 文档 ， 其 在 向 量 空 间 中 的 两 个 向 量 是 重要 的 ， 通 过 
Cosine 相 似 性 计算 得 到 的 相似 性 结果 为 1。 

图 5-7 是 上 述 计算 的 一 个 形象 化 示意 图 ， 在 这 个 例子 里 ， 特 征 维 度 
为 3， 即 由 “苹果 ”、“ 乔 布 斯 ?和 “iPad2”3 个 单词 组 成 特征 空间 ， 每 个 单 
词 代表 三 维 空 间 中 的 一 个 维度 。 对 于 文档 D4、D5 和 查询 “乔布斯 
iPad2”， 和 是 三 维 空间 中 3 个 数值 点 ， 和 坐标 原点 相连 形成 一 个 癌 量 。 香 
询 和 文档 的 相似 性 就 是 两 个 向 量 之 间 的 夹 角 大 小 ， 从 示例 中 可 以 看 
出 ， 查 询 和 文档 D4 之 间 的 夹 角 要 小 于 与 文档 D5 形成 的 夹 角 ， 这 意味 着 
查询 和 文档 D4 更 相似 些 。 


sR 
= 

We 
be 


D4: 乔布斯 推动 了 世界 ，iPod、 iPhone、iPad、iP ad2 ， 一 款 一 款 接连 不 断 。 


D5: 乔布斯 出 门 买 了 四 袋 苹果 。 


Query: 乔布斯 iPad2 。 
图 5-7 ”Cosine 相 似 性 图 示 
我 们 以 Cosine 计 算 公 式 来 计算 图 5-6 示 例 中 的 文档 与 查询 的 相似 
度 ， 假 设 文档 D4 的 特征 向 量 为 {0.0,0.8,0.5}， 即 对 于 “乔布斯 * 的 这 个 特 
征 权 值 是 0.8，“iPad2” 的 特征 权 值 是 0.5， 由 于 D4 中 没有 出 现 “ 苹 果 ”*， 所 
以 对 应 的 特征 权 值 是 90。 相似 地 ，D5 的 特征 向 量 为 {0.3, 0.8, 0.0}， 用 户 


查询 “乔布斯 iPad2” 的 特征 同 量 为 {0.0,1.2,0.6}。 有 了 特征 癌 量 ， 可 以 
参照 Cosine 公 式 ， 计 算出 查询 和 文档 D4、D5 的 相似 性 如 下 : 
0.8 x 1.2 + 0.5 x 0.6 
Cosine(Query, D4) = ———— = 0.79 
V (0.82 + 0.52) x (1.22 + 0.62) 
0.8 x 0.8 


Cosine(Query, DS) = -m = 0.25 

V(0.32 + 0.82) x (1.22 + 0.62) 

从 上 壕 计 算 结 果 可 以 看 出 ， 文 档 D4 与 查询 的 Cosine 相 似 性 要 大 于 
文档 D5 与 查询 的 相似 性 ， 在 搜索 结果 排序 中 ， 会 将 D4 排 在 D5 前 面 。 


5.2.3 ”特征 权重 计算 


文档 和 查询 转换 为 特征 同 量 时 ， 每 个 特征 都 会 赋予 一 定 的 权 值 ， 
本 市 叙述 如 何 对 特征 计算 相应 的 权 值 。 在 癌 量 空间 模型 里 ， 特 征 权 值 
的 计算 框架 一 般 补 称 做 Tf*IDF 框 架 ， 虽 然 具 体 计算 方式 可 以 有 多 种 ， 
但 是 大 都 遵循 这 一 框 染 ， 而 这 一 计算 框架 考 虚 的 主要 计算 因子 有 两 
个 : 词 频 Tf 和 逆 文 档 频 率 IDF 。 


MAF (Tf) 


Tf 计 算 因 子 代 表 了 词 频 ， 即 一 个 单词 在 文档 中 出 现 的 次 数 ， 一 般 
来 说 ， 在 某 个 文档 中 反复 出 现 的 单词 ， 往 往 能 够 表征 文档 的 主题 信 
轧 ， 即 TI 值 越 大 ， 越 能 代表 文档 所 反映 的 内 容 ， 那 么 应 该 给 予 这 个 单 
词 更 大 的 权 值 。 这 是 为 何 引 入 词 频 作为 计算 权 值 的 重要 因子 的 原因 。 

具体 计算 词 频 因子 的 时 候 ， 基 于 不 同 的 出 发 点 ， 可 以 采纳 不 同 的 
计算 公式 。 最 直接 的 方式 就 是 直接 利用 词 频 数 ， 比 如 文档 中 某 个 单词 
出 现 过 5 次 ， 就 将 这 个 单词 的 Tf 值 计 为 5。 

一 种 词 频 因子 的 变 体 计 算 公式 是 : 

W=1+log (Tf) 


即将 词 频数 值 Tf 取 Log 值 来 作为 词 频 权 值 ， 比 如 单词 在 文档 中 出 现 
过 4 次 ， 则 其 词 频 因子 权 值 是 3， 公 式 中 的 数 子 1 是 为 了 平滑 计算 用 的 ， 
因为 如 果 Tf 值 为 1 的 情况 下 ， 取 Log 后 值 为 0%， 即 本 来 出 现 了 一 次 的 单 
词 ， 按 照 这 种 方法 计算 会 认为 这 个 单词 从 来 没有 在 文档 中 出 现 过 ， 为 
了 避免 这 种 情形 ， 采 用 加 1 的 方式 来 进行 平滑 。 之 所 以 要 对 词 频 取 
Log， 有 是 基于 如 下 考虑 : 即使 一 个 单词 出 现 了 10 次 ， 也 不 应 该 在 计算 特 
征 权 值 时 ， 比 出 现 1 次 的 情况 权 值 大 10 倍 ， 所 以 加 入 Log 机 制 抑 制 这 种 
过 大 的 差异 。 

男 外 一 种 单词 词 频 因 了 于 的 变 体 计算 公式 是 : 


T 
Wymar =e X 


这 种 方法 被 称 为 增强 型 规范 化 Tf， 其 中 的 a 是 调节 因子 ， 过 去 经 验 
取 值 0.5， 新 的 研究 表明 取 值 为 0.4 效 果 更 好 。 公 式 中 的 Tf 代表 这 个 单词 
的 实际 词 频数 目 ， 而 Max (Tf) 代表 了 文档 中 所 有 单词 中 出 现 次 数 最 多 
的 那个 单词 对 应 的 词 频数 目 。 之 所 以 要 如 此 操作 ， 主 要 出 于 对 长 文档 
的 一 种 抑制 ， 因 为 如 琳 文 档 较 长 ， 与 短文 档 相 比 ， 则 长 文档 中 所 有 单 


词 的 Tf 值 会 普 过 比 短文 档 的 值 咒 ,但 古 这 并 不 意味 着 长 文档 与 查询 更 
相关 。 用 单词 实际 词 频 除 以 文档 中 最 高 词 频 ， 等 于 将 绝对 的 数值 进行 
了 规范 化 转换 ， 公 式 的 侣 义 融 转换 为 : 同一 个 文档 内 单词 之 间 的 相对 
重要 性 。 即 使 一 个 文档 很 长 ， 单 词 词 频 普遍 很 高 ， 但 是 除 以 文档 最 高 
词 频 ， 那 么 通过 这 种 计算 方式 得 出 的 数值 比 短文 档 来 说 并 不 一 定 束 
大 。 这 样 就 剔除 了 文档 长 度 因 素 的 影响 ， 长 文档 和 短文 档 的 词 频 因 子 
束 成 为 可 比 的 了 。 


逆 文 档 频 率 因 子 (IDF) 


词 频 因子 是 与 文档 密切 相关 的 ， 说 一 个 单词 的 T{ 值 ， 指 的 是 这 个 
单词 在 某 个 文档 中 的 出 现 次 数 ， 同 一 个 单词 在 不 同文 档 中 Tf 值 很 可 能 
不 一 样 。 而 逆 文 档 频 率 因 子 IDF 则 与 此 不 同 ， 它 代表 的 是 文档 集合 范围 
的 一 种 全 局 因子 。 给 定 一 个 文档 集合 ， 那 么 每 个 单词 的 IDF 值 束 唯 一 确 
定 ， 跟 具体 的 文档 无 天 。 所 以 IDF 考 虑 的 不 是 文档 本 身 的 特征 ， 而 征 特 
征 单词 之 间 的 相对 重要 性 。 

所 谓 逆 文档 频率 因子 IDFE， 其 计算 公式 如 下 : 


IDF, = rel 

n, 

其 中 的 N 代 表 文 档 集 合 中 总 共有 多 少 个 文档 ， 而 nl 代表 特征 单词 k 
在 其 中 多 少 个 文档 中 出 现 过 ， 即 文档 频率 。 由 公式 可 知 ， 文 档 频 率 nl 越 
高 ， 则 其 IDF 值 越 小 ， 即 越 多 的 文档 包含 某 个 单词 ， 那 么 其 IDF 权 值 越 
小 。IDF 反 映 了 一 个 特征 词 在 整个 文档 集合 中 的 分 布 情况 ， 特 征 词 出 现 
在 其 中 的 文档 数目 越 多 ，IDF 值 越 低 ， 这 个 词 区 分 不 同文 档 的 能 力 越 
差 。 在 极端 情况 下 ， 考 虑 一 个 在 文档 集合 中 所 有 文档 中 都 出 现 的 特征 
词 *term”， 即 m=N， 这 说 明 无 论 搜 索 任 何 主题 , “term” 这 个 词 都 会 出 
现在 所 有 相关 和 不 相关 的 文档 中 ， 因 此 *term>” 对 任何 主题 都 没有 区 分 相 
关 文 档 和 不 相关 文档 的 能 力 ， 这 时 “term” 的 IDF 值 为 0° 例如 ， 在 一 个 有 
天 计算 机 领域 的 文档 集合 中 ， 特 征 词 “ 电 脑 ”* 几 乎 肯定 会 出 现在 所 有 文 
档 中 ， 这 时 用 它 进 行 搜索 没有 任何 效果 。 但 如 果 另 一 个 文档 集合 中 包 
括 计 算 机 领域 相关 的 文档 和 很 多 有 关 经 济 学 的 文档 ， 那 么 在 这 个 集合 
中 使 用 “电脑 ”搜索 计算 机 相关 的 文档 效果 会 比较 好 。 也 束 是 说 ,“ 电 
脑 ” 这 个 特征 词 在 第 1 个 文档 集合 中 区 分 不 同文 档 的 能 力 很 差 ， 在 第 2 个 
文档 集合 中 区 分 能 力 很 强 。 而 IDF 就 古 衡量 不 同 单词 对 文档 的 区 分 能 力 
的 ， 其 值 越 高 ， 则 其 区 分 不 同文 档 差异 的 能 力 越 强 ， 反 之 则 区 分 能 力 
越 弱 。 整 体 而 言 ，IDEF 的 计算 公式 是 基于 经 验 和 和 直觉 的 ， 有 人 研究 者 进 一 


步 分 析 认 为 : IDF 代 表 了 单词 带 有 的 信息 量 的 多 少 ， 其 值 越 高 ， 说 明 其 
信息 含量 越 多 ， 束 越 有 价值 。 


Tf*IDF 框 架 
Tf*IDEF 框 架 束 是 结合 了 上 壕 的 词 频 因 了 于 和 逆 文 档 频 率 因 和子 的 计算 


框架 ， 一 般 是 将 两 者 相 乘 作为 特征 权 值 ， 特 征 权 值 越 大 ， 则 越 可 能 是 
好 的 指示 词 ， 即 : 


Weight, uid=TfxIDF 

从 上 述 公 式 可 以 看 出 ， 对 于 某 个 文档 D 来 说 : 

如 条 D 中 某 个 单词 的 词 频 很 高 ， 而 且 这 个 单词 在 文档 集合 的 其 他 文 
档 中 很 少 出 现 ， 那 么 这 个 单词 的 权 值 会 很 高 。 

如 果 D 中 某 个 单词 的 词 频 很 高 ， 但 是 这 个 单词 在 文档 集合 的 其 他 文 
档 中 也 经 常 出 现 ， 或 者 单词 词 频 不 高 ， 但 是 在 文档 集合 的 其 他 文档 中 
很 少 出 现 ， 那 么 这 个 单词 的 权 值 一 般 。 

如 果 D 中 某 个 单词 词 频 很 低 ， 同 时 这 个 单词 在 文档 集合 的 其 他 文档 
中 经 第 出 现 ， 那 么 这 个 单词 权 值 很 低 。 

经 过 几 十 年 的 不 断 探索 ， 向 量 空间 模型 已 经 相当 成 熟 ， 并 被 各 种 
领域 广泛 采用 。 从 数学 模型 的 角度 看 ， 向 量 空间 模型 简单 直观 ， 用 查 
询 和 文档 之 间 的 相似 性 来 模拟 搜索 中 的 相关 性 。 与 布尔 模型 相 比 ， 也 
能 对 文档 与 查询 的 相关 性 进行 打分 排序 。 但 是 总 体 而 言 ， 向 量 空间 模 
型 是 个 经 难 型 的 模型 ， 是 靠 直觉 和 经 验 不 断 措 索 完 善 的 ， 缺 乏 一 个 明 
确 的 理论 来 指导 其 改进 方 同 。 


5.3 ”概率 检索 模型 


概率 检索 模型 是 目前 效果 最 好 的 模型 之 一 ， 在 TREC 等 各 种 检索 系 
统 评测 会 议 已 经 证 明了 这 一 点 ， 而 且 okapi BM25 这 一 经 典 概率 模型 计 
算 公式 已 经 在 商业 搜索 引擎 的 网 页 排序 中 广泛 使 用 。 


5.3.1 ”概率 排序 原理 


概率 检索 模型 是 从 概率 排序 原理 推导 出 来 的 ， 所 以 理解 这 一 原理 
对 于 理解 概率 检索 模型 非常 重要 。 概 率 排序 原理 的 基本 思想 是 : 给 定 
一 个 用 户 查 询 ， 如 采 搜 索 系统 能 够 在 搜索 结果 排序 时 按照 文档 和 用 户 
需求 的 相关 性 由 高 到 低 排序 ， 那 么 这 个 搜索 系统 的 准确 性 是 最 优 的 。 


而 在 文档 集合 的 基础 上 尽 可 能 准确 地 对 这 种 相关 性 进行 估计 则 是 其 核 
is 

从 概率 排序 原理 的 表述 来 看 ， 这 是 一 种 直接 对 用 户 需 求 相关 性 进 
行 建 模 的 方法 ， 这 点 与 向 量 空间 模型 不 同 ， 向 量 空间 模型 是 以 查询 和 
文档 的 内 容 相似 性 来 作为 相关 性 的 代替 品 。 

概率 排序 原理 只 是 一 种 指导 思想 ， 并 未 阐述 如 何 才能 做 到 这 种 理 
想 的 情形 ， 在 这 个 框架 下 ， 怎 样 对 文档 与 用 户 需求 的 相关 性 建立 模型 
呢 ? 用 户 发 出 一 个 查询 请 求 ， 如 果 我 们 把 文档 集合 划分 为 两 个 类 别 ; 
相关 文档 子 集 和 不 相关 文档 子 集 ， 于 是 就 可 以 将 这 种 相关 性 衡量 转换 
为 一 个 分 类 问题 。 

图 5-8 示 意 了 概率 模型 作为 一 个 分 类 问题 ， 对 于 某 个 文档 D 来 说 ， 
如 果 其 属于 相关 文档 子 集 的 概率 大 于 属于 不 相关 文档 子 集 的 概率 ， 我 
们 就 可 以 认为 这 个 文档 与 用 户 查 询 是 相关 的 。 图 中 的 P (R |D) 代表 给 
定 一 个 文档 D 对 应 的 相关 性 概率 ， 而 P (NR |D) 则 代表 该 文档 的 不 相 
关 概 率 。 即 如 果 P (R|D) >P (NR|D) ， 我 们 可 以 认为 文档 与 用 户 


查询 是 相关 的 。 
( 相关 文档 ) 
P(R|D) | 
乔布斯 推动 了 世界 ， 
iPod, iPhone, iPad 
, iPad2 ,一 款 一 款 接 
连 不 断 。 
P(NRID) 不 相关 文档 


图 5-8 ”概率 模型 是 一 个 分 类 问题 
所 以 现在 问题 的 关键 是 如 何 估算 P (R|D) AP (NR|D) 的 数 
tt o 为 了 简化 问题 ， 首 先 我 们 根据 由 时 斯 规则 对 两 个 概率 值 进行 改 


P(D|R)P(R) 


P(RID) =" 
P(NRID) = SONDRE 


相关 性 计算 的 目的 是 要 判断 是 否 P (R|D) >P (NR|D) ， 将 改 
写 公式 代入 成 为 如 下 形式 : 
P(DIR)P(R) 、 P(D|NR)P(NR) 


P(RID) > P(NRID) <=> > = 


因为 是 同一 篇 文档 ， 所 以 右 端 公式 的 分 母 P (D) 是 相同 的 ， 在 做 
相关 性 判断 的 时 候 可 以 消 掉 ， 并 对 因子 移 项 ， 转 换 成 如 下 形式 : 
P(DIR)P(R) 、 P(DINR)P(NR) _、 P(DIR) 、 P(NR) 
P(D) P(D) — 7 P(DINR) P(R) 

尽管 概率 模型 将 相关 性 判断 转换 为 一 个 二 值 分 类 问题 ， 但 搜索 应 

用 并 不 需要 进行 真正 的 分 类 ， 而 是 将 搜索 缩 轨 按照 相 竹 得 分 由 高 到 


低 排序 ， 所 以 对 于 搜索 系统 来 说 只 需要 将 文档 按照 P(DINR) 大 小 降序 排 
列 即 可 ， 于 是 问题 进一步 转换 成 如 何 估算 因子 P (DIR) 和 P 
(D|NR) ， 而 二 元 独立 模型 提供 了 计算 这 些 因 子 的 框架 。 


5.3.2 ”二 元 独立 模型 (Binary Independent Model) 


为 了 能 够 使 得 估算 上 述 两 个 计算 因子 可 行 ， 二 元 独立 模型 (BIM 
模型 ) 做 出 了 两 个 假设 ; 


所 谓 二 元 假设 ， 类 似 于 布尔 模型 中 的 文档 表示 方法 ， 一 篇 文档 在 
由 特征 进行 表示 的 时 候 ， 以 特征 “出 现 ? 利 “不 出 现 "两 种 情况 来 表示 ， 不 
考虑 词 频 等 其 他 因素 。 假 设 特征 集合 包含 5 个 单词 ， 某 个 文档 D 根 据 二 
元 假设 ， 表 示 为 {10,10,1}， 其 舍 义 是 这 个 文档 出 现 了 第 1 个 、 第 3 个 和 
第 5 个 单词 ， 但 是 不 包含 第 2 个 和 第 4 个 单词 。 做 出 二 元 假设 是 将 复杂 问 
题 向 单 化 的 一 种 措施 。 


假设 2: 词汇 独立 性 假设 


所 请 词汇 独立 性 假设 ， 是 指 文档 里 出 现 的 单词 之 间 没 有 任何 关 
联 ， 任 意 一 个 单词 在 文档 的 分 布 概率 不 依赖 于 其 他 单词 是 否 出 现 。 这 


个 假设 很 明显 和 事实 不 符 ， 比 如 一 篇 文档 出 现 了 单词 “乔布斯 ”， 那 么 
出 现 * 苹 果 ”`“ipad" 这 些 单词 的 概率 显然 很 大 ， 即 单词 之 间 是 有 依赖 性 
的 。 但 是 为 了 简化 计算 ， 很 多 方法 都 会 做 出 词汇 独立 性 假设 。 有 了 词 
汇 独立 性 假设 ， 我 们 束 可 以 将 对 一 个 文档 的 概率 估计 转 换 为 对 文档 包 
含 单词 的 概率 估计 ， 因 为 词汇 之 间 没 有 关联 ， 所 以 可 以 将 文档 概率 转 
换 为 单词 概率 的 乘积 。 
在 以 上 两 个 前 提 假 设 下 ， 二 元 独立 模型 即 可 对 两 个 因子 P (DR) 

(D |NR) 进行 估算 ， 在 进行 形式 化 描述 前 ， 我 们 举 个 简单 的 例 


上 文 提 到 的 文档 D 表 示 为 {1,0,1,0,1} ， 我 们 用 p; 来 代表 第 i 个 单词 在 
相关 文档 集合 内 出 现 的 概率 ， 于 是 在 已 知 相关 文档 集合 的 情况 下 ， 观 
察 到 文档 D 的 概率 为 ; 
P(DIR) = p, X(1—p,) Xp; X (1—p,) X p; 

因为 在 文档 中 出 现 了 第 1 个 、 第 3 个 和 第 5 个 单词 ， 所 以 这 些 单词 在 
相关 文档 集合 中 出 现 的 概率 为 pl， 而 第 2 个 和 第 4 个 单词 没有 出 现 ， 那 么 
1-p; 就 代表 了 单词 不 在 文档 出 现 的 概率 ， 根 据 词汇 独立 性 假设 ， 将 对 文 
I 
DIR) ° 


对 于 因子 P (D|NR) ， 我 们 假设 用 si 代表 第 i 个 单词 在 不 相关 文档 
集合 内 出 现 的 概率 ， 于 是 在 已 知 不 相关 文档 集合 的 情况 下 ， 观 察 到 文 
档 D 的 概率 为 : 

P(DINR) = s1 X (1 — s2) X s3 X (1 — S4) X S5 
P(DIR) 
两 个 因子 已 经 估算 完毕 ， 于 是 我 们 可 以 估算 P(DINR)， 即 : 
P(DIR) _ pıx(1-p2)xp3x(1-p4)Xps 
P(DINR) _ 81 X(1-s2)xs3 X(1-54) X55 

如 宁可 以 从 文档 集合 估计 pi 和 sj， 那么 我 们 惑 可 以 对 文档 的 相关 性 

进行 直接 计算 。 这 是 一 个 具体 的 实例 ， 下 面 我 们 用 形式 化 方式 表示 如 


P(DIR) 


何 计算 P(DINR). 
P(D|R) [] Di | | 1 — Dj 
es — X < 
P(D|NR) Ai S; 1—S; 
L:adj= 


i:adj=0 


这 个 公式 与 上 面 实例 所 列 公 云 侣 义 相 同 ， 只 不 过 将 各 个 计算 因子 
归 为 两 个 部 分 ， 其 中 [Fai=a 代 表 了 在 文档 D 中 出 现 过 的 各 个 单词 的 概率 


RIH, [sai=o 则 代表 了 没有 在 文档 D 中 出 现 的 各 个 特征 单词 的 概率 乘 
积 。 进 一 步 对 这 个 公式 进行 一 些 数学 等 价 变 换 ， 可 得 : 


P(DIR) fi, 1 — Si 1 Pi — Pi 
P(DINR) ” >] i li-a” een l I = 
dj= i: 


(118% [1x }*( 1 2 1 
= "ALT= l 1 = 


ti:di=0 


pi A- si? 1 一 7i 
“LL inet hla 
即将 计算 公式 分 解 为 两 个 组 成 部 分 ， 第 1 个 组 成 部 分 [aai=1 代 表 在 
文档 中 出 现 过 的 单词 所 计算 得 到 的 单词 概率 乘积 ， 第 2 个 部 分 [Li 代表 对 
所 有 特征 词 计算 所 得 到 的 单词 概率 滋 积 。 。 因 为 p 和 s 是 从 相关 文档 和 不 
相关 文档 集合 中 统计 出 来 的 全 局 概率 ， 所 以 与 具体 文档 无 关 ， 这 说 明 
对 平 所 有 文档 来 说 第 2 个 部 分 得 分 都 一 样 ， 所 以 在 排序 中 不 起 作用 ,于 
是 可 以 将 这 个 部 分 消 掉 ， 得 到 最 终 的 相关 性 估算 公式 
P(DIR) TT pi(1—s) 


PONR 1 | SG 站) 
出 于 计算 方便 ， 可 以 对 上 述 公式 取 log 值 ， 得 到 如 下 相关 性 售 值 公 


pi(1—si) Si) 
Dit :dj=1 log ne i(1—pi) 


到 目前 为 止 ， 我 们 已 经 获得 了 计算 相关 性 的 具体 方法 ， 剩 下 的 问 
题 就 是 如 何 计算 单词 概率 pi 和 si。 给 定 用 户 查 询 ， 如 有 果 我 们 可 以 确定 哪 


些 文 档 构成 了 相关 文档 集合 ， 哪 些 文档 构成 了 不 相关 文档 集合 ， 可 以 
利用 下 表 所 列 数据 来 估算 单词 概率 : 


相关 文档 不 相关 文档 文档 数量 
d;= 1 rj nar Ni 
d;=0 R-r; (N-R)-(n; -r;) N-n; 
文档 数量 R N—R N 


N 
表 中 第 3 行 的 N 为 文档 集合 总 共 包 舍 的 文档 个 数 ，R 为 相关 文档 的 
个 数 ， 于 是 N 一 R 丈 是 不 相关 文档 集合 的 大 小 。 对 于 某 个 单词 di 来 说 ， 
假设 包含 这 个 单词 的 文档 数量 共有 mi 个 ， 而 其 中 相关 文档 有 nm 个 ， 那 么 
不 相 天 文档 中 包公 这 个 单词 的 文档 数量 则 为 n; 一 r;。 再 考 虚 表 中 第 2 列 ， 
因为 相关 文档 个 数 是 R， 而 其 中 出 现 过 单词 d 的 有 rt 个， 那么 相关 文档 
中 没有 出 现 过 这 个 单词 的 文档 个 数 为 R 一 ty 个 ， 同 理 ， 不 相关 文档 中 没 
有 出 现 过 这 个 单词 的 文档 个 数 为 (N 一 R) ni 一 5) 个 。 从 表 中 可 以 
看 出 ， 如 果 我 们 假设 已 经 知道 N、R、nm rn 的 话 ， 其 他 参数 是 可 以 靠 这 
4 个 数值 推导 出 来 的 。 

根据 表格 数据 ， 即 可 估算 sj 和 pi。si 因 为 pi 代表 第 i 个 单词 在 相关 文 
档 集 合 内 出 现 的 概率 ， 在 BIM 模 型 的 二 元 假设 下 ， 可 以 用 包含 这 个 单 
词 的 相关 文档 个 数 m 除 以 相关 文档 总 数 R 来 佑 算 ， 即 pi=rVR。 而 si 代表 
第 i 个 单词 在 不 相关 文档 集合 内 出 现 的 概率 ， 所 以 可 以 用 包含 这 个 单词 
的 不 相关 文档 个 数 m 一 nm 除 以 不 相关 文档 总 数 (N 一 R) 来 估算 ， 即 s; = 
ni 一 M AN 一 R) 。 把 这 两 个 佑 值 公式 代入 相关 性 估 值 公式 即 可 得 出 如 
何 计算 相关 性 ， 但 是 这 里 有 个 问题 ， 相 关 性 估 值 公式 采取 了 log 形 式 ， 
如 果 r = 二 0， 那 么 会 出 现 log (0) 的 情形 ， 为 了 避免 这 种 情况 ， 我 们 对 pi 
和 si; 的 估 值 公式 进行 平滑 分子 部 分 加 上 0.5， 分 母 部 分 加 上 1.0， 即 : 

Pi = (r; + 0.5)/(R + 1.0) 
Si = (n, — T; + 0.5)/(N — R + 10) 
将 这 两 个 佑 值 因子 代入 相关 性 估算 公式 ， 得 到 如 下 公式 : 
(r; + 0.5)/(R — r; + 0.5) 


其 代表 的 含义 是 : 对 于 同时 出 现在 用 户 碍 询 Q 和 文档 D 中 的 单词 ， 
款 加 每 个 单词 的 佑 值 ， 其 和 就 是 文档 D 和 查询 的 相关 性 度量 。 这 即 是 二 
元 独立 模型 推导 出 的 用 户 查 询 和 文档 之 间 的 相关 性 计算 方法 ， 如 果 我 
们 事 移 不 知道 哪些 是 相关 文档 ， 哪 些 是 不 相关 文档 ， 可 以 给 公式 的 舍 
算 因 子 赋 予 固定 值 ， 此 种 情况 下 该 公式 等 价 于 在 向 量 空 间 模 型 中 提 到 
的 IDF 因 子 。 各 种 实验 表明 ， 根 据 二 元 独立 模型 计算 相关 性 实际 效果 并 
不 好 ， 但 是 这 个 模型 却 是 非常 成 功 的 概率 模型 方法 BM25 的 基础 ， 这 是 
为 何 本 市 花 较 大 篇 幅 介 绍 BIM 模 型 的 原因 。 


5.3.3 ”BM25 模 型 


BIM 模 型 基于 二 元 假设 推导 而 出 ， 即 对 于 单词 特征 ， 只 考虑 是 否 
在 文档 中 出 现 过 ， 而 没有 考虑 单词 的 权 值 。BM25 模 型 在 BIM 模 型 基础 
上 ， 考 虚 了 单词 在 查询 中 的 权 值 及 单词 在 文档 中 的 权 值 ， 拟 合 出 综合 
上 述 考 虑 因素 的 公式 ， 并 通过 实验 引入 一 些 经 验 参 数 。BM25 模 型 是 日 
前 最 成 功 的 内 容 排 序 模型 。 

图 5-9 展 示 了 BM25 模 型 的 具体 计算 公式 ， 对 于 查询 Q 中 出 现 的 每 个 
查询 词 ， 依 次 计算 单词 在 文档 D 中 的 分 值 ， 累 加 后 就 是 文档 D 与 查询 Q 
的 相关 性 得 分 。 从 图 中 可 以 看 出 ， 计 算 第 i 个 查询 词 的 权 值 时 ， 计 算 公 
式 可 以 拆 解 为 3 个 组 成 部 分 ， 第 1 个 组 成 部 分 就 是 上 节 所 述 的 BIM 模 型 
计算 得 分 ， 上 节 也 提 到 ， 如 果 赋 予 一 些 默 认 值 的 话 ， 这 个 部 分 的 公式 
等 价 于 IDF 因 子 的 作用 ; 第 2 个 组 成 部 分 是 查询 词 在 文档 D 中 的 权 值 ， 其 
中 f 代 表 了 单词 在 文档 D 中 的 词 频 ，k; 和 K 是 经 验 参 数 ; 第 3 个 组 成 部 分 
是 查询 词 自身 的 权 值 ， 其 中 qf; 代表 查询 词 在 用 户 查 询 中 的 词 频 ， 如 果 
查询 较 短 小 的 话 ， 这 个 值 往往 是 1，k, 是 经 验 参 数 。BM25 模 型 就 是 融 
合 了 这 3 个 计算 因子 的 相关 性 计算 公式 。 


查询 词 文档 权 值 


y lo (ri+0.5)/(R-ri+0.5) . (kı+1)fi | (k2+1)qfi 
iEQ *°8 (n,—1;4+0.5)/(N—ni—R+ri40.5) KFf: ko+afi 
\ 
下 一 
\ 
zman ' nee 
\ 


K=k(( -Ws 
avdl 
图 5-9 BM25 计 算 公式 


在 第 2 个 计算 因子 中 ，K 因 子 代 表 了 对 文档 长 度 的 考虑 ， 图 中 所 示 
K 的 计算 公式 中 ，dl 代 表 文 档 D 的 长 度 ， 而 avdl 则 是 文档 集合 中 所 有 文 
档 的 平均 长 度 ，k1 和 b 是 经 验 参数 。 其 中 参数 b 是 调节 因子 ， 极 端 情况 
下 ， 将 b 设 定 为 0， 则 文档 长 度 因素 将 不 起 作用 ， 经 验 表 明 一 般 将 b 设 定 
为 0.75 会 获得 较 好 的 搜索 效果 。 

BM25 公 式 中 包 人 台 3 个 目 由 调节 参数 ， 除 了 调 玉 因 了 于 b 外 ， 还 有 针对 
词 频 的 调 世 因子 ki 和 ko。ki 的 作用 是 对 查询 词 在 文档 中 的 词 频 进 行 调 
三， 如果 将 xi 设 定 为 0， 则 第 2 部 分 计算 因子 成 了 整数 1， 即 不 考虑 词 频 
WAR, E TBMR o WRR KERKE, MER TEA 
TERA RREK, RAAK T UE, ARa, AK 
将 ki 设 定 为 1.2。 调 太 因 子 k> 和 ki1 的 作用 类 似 ， 不同 点 在 于 其 是 针对 查询 
中 的 词 频 进 行 调节 ， 一 般 将 这 个 值 设 定 在 0 到 1000 较 大 的 范围 内 ， 之 所 
以 如 此 ， 十 因为 查询 往往 很 得 ， 所 以 不 同 碍 询 词 的 词 频 都 很 小 ， 词 频 
rae 较 大 的 调和 参数 数值 设 定 范围 允许 对 这 种 差异 进行 放 


综合 来 看 ，BM25 模 型 计算 公 邢 其 实 融合 了 4 个 考虑 因素 : IDFA 

子 、 文 档 长 度 因 子 、 文 档 词 频 和 查询 词 频 ， 并 利用 3 个 自由 调节 因子 
(ky ` kyl) 对 各 种 因子 的 权 值 进行 调整 组 合 。 

下 面 我 们 以 用 户 查 询 “ 乔 布 斯 iPad2” 为 例子 ， 来 看 看 如 何 实际 利用 

BM25 公 式 计 算 某 个 文档 D 的 相关 性 。 甫 先 假定 BM25 的 第 1 个 计算 因子 

中 ， 我 们 不 知道 哪些 是 相关 文档 ， 所 以 将 相关 文档 个 数 R 和 包 售 查 询 词 


2 此 时 第 1 个 计算 因子 退化 成 类 似 于 IDF 的 形 
TY: 
lie (0+0.5)/(0—0+0.5) Pry (N-n, +0.5) 
n, —0+0.5/((N —0)—(n, —0)+0.5) (n, + 0.5) 
因为 查询 中 两 个 查询 词 都 只 出 现 了 一 次 ， 所 以 其 对 应 的 都 为 1。 其 
他 数值 假定 如 下 : 
文档 集合 总 数 N = 100000 
文档 集合 中 包含 单词 “乔布斯 ”的 文档 个 数 n 乔 布 斯 三 1000 
文档 集合 中 包含 单词 “iPad2” 的 文档 个 数 nipsg = 100 
文档 D 中 出 现 单 词 “ 乔 布 斯 ”的 词 频 { 乔 布 斯 三 8 
文档 DD 中 出 现 单词 iiPad2” 的 词 频 fipag, 二 5 
调 太 因子 =1.2 
Val 7 Al = 200 
调节 因子 b= 0.75 
假定 文档 长 度 是 平均 文档 长 度 的 1.5 倍 ， 即 K=1.2x (0.25+ 
0.75x1.5) =1.65， 将 这 些 数值 代入 BM25 计 算 公 式 ， 可 以 得 出 文档 D 和 
查询 的 如 下 相关 性 得 分 : 


100000-1000+0.5 (1.2+1)x8 (200+1)x1 
BM25( "乔布斯 iPad2” , D) =Log ————————. x ‘ 
1000+0.5 1.65+8 200+1 
100000-100+0.5 (1.2+1)x5  (200+1)x1 
+ log 7X s 
100+0.5 1.65+5 200+1 


=8.59 
对 于 文档 集合 里 的 所 有 文档 ， 痢 按照 上 述 方 法 计算 ， 将 计算 结果 
按照 大 小 排序 ， 就 根据 BM25 公 式 得 出 了 内 容 相关 性 排序 。 


5.3.4 ”BM25F 模 型 


Okapi BM25 模 型 于 1994 年 提出 ， 之 后 被 广泛 研究 并 应 用 在 不 同系 
统 里 ， 也 陆续 有 在 此 基础 上 的 改进 算法 出 现 。2004 年 推出 的 BM25F 模 


型 就 是 一 个 很 典型 的 BM25 改 进 算 法 。 

BM25 模 型 在 计算 一 个 文档 和 查询 的 相关 性 的 时 候 ， 有 是 把 文档 当做 
一 个 整体 来 看 竺 的， 但 是 在 有 些 应 用 场景 下 ， 需 要 将 文档 内 容 切 割 成 
不 同 的 组 成 部 分 ， 然 后 对 不 同 成 分 分 别 对 等 。 最 典型 的 应 用 场景 就 十 
网 页 搜索 ， 一 个 网 页 由 页 面 标题 、Meta 描 述 信息 、 页 面 内 容 等 不 同 
的 “ 域 ”(Field) 构成 ， 在 计算 内 容 相关 性 得 分 的 时 候 ， 往 往 和 希望 标题 
的 权重 大 些 ， 因 为 标题 是 一 个 网 页 的 中 心思 想 稍 述 。 而 BM25 由 于 没有 
考虑 这 点 ， 所 以 不 容易 做 到 不 同 " 域 ?的 内 容 给 予 不 同 权 重 ，BM25F 束 
ER 适合 这 种 将 文档 划分 为 者 干 “ 域 "， 不 同 “ 域 ”需要 不 同 权 值 的 应 用 场 


AS 


BM25F 忆 路 如 上 ， 但 是 不 同系 统 有 各 异 的 县 体 计算 方法 ， 本 节 叙 
述 其 中 的 一 种 ， 为 了 让 公式 看 起 来 简洁 一 些 ， 我 们 用 Wi 代 蔡 BIM 扒 
导出 的 部 分 ， 也 即 BM25 公 式 的 第 1 个 组 成 部 分 : 


RS] _ MN 
Ww = Dg (ni — r; + 0.5)/((N — R) — (ni — r;) + 0.5) 
BM25F 的 计算 公式 如 下 : 
pir i 7 
i:qj=dj=1 : fi 


BM25F 公 式 与 BM25 的 区 别 体现 在 第 2 个 计算 因子 中 的 太 上 ， 这 个 
因子 综合 了 第 i 个 单词 出 现在 不 同 “ 域 > 的 得 分 ， 其 定义 如 下 : 
fi = Zk=1 Wk X au 
u 
uly, 


B = (1 — b,) + b, X —) 


avul,, 
假设 一 个 文档 D 包 含 了 u 个 不 同 的 “ 域 ”， 而 每 个 " 域 " 的 权 值 设 定 为 
We 大 将 第 i 个 单词 在 各 个 不 同 < 域 "的 分 值 fwyBu 加 权 求 和 ， 其 中 fa 代表 
单词 在 第 u 个 < 域 " 出 现 的 词 频数 ，B, 则 是 " 域 "长 度 因素 。 对 于 B, 来 说 ， 
ul 是 这 个 “ 域 ?" 的 实际 长 度 ，avul, 是 文档 集合 中 这 个 " 域 " 的 平均 长 度 ， 
而 bu 则 是 调节 因子 ， 这 里 要 注意 的 一 点 是 : 不 同 的 " 域 " 要 设 定 不 同 的 调 
节 因 子 ， 这 样 搜索 效果 才 好 。 所 以 对 于 BM25F 来 说 ， 除 了 调节 因子 ki 


外 ， 如 果 文 档 包含 u 个 不 同 的 “ 域 "， 则 还 需要 赁 经 验 设 定 u 个 “ 域 ” 权 值 和 
u 个 长 度 调 记 因子 。 


54 语言 模型 方法 


基于 统计 语言 模型 的 检索 模型 于 1998 年 首次 提出 ， 是 借鉴 了 语音 
识别 领域 采用 的 语言 模型 技术 ， 将 语言 模型 和 信息 检索 相互 融合 的 结 
果 。 


从 基本 思路 上 来 说 ， 其 他 的 大 多 数 检索 模型 的 思考 路 径 是 从 查询 
到 文档 ， 即 给 定 用 户 查 询 ， 如 何 找 出 相关 的 文档 。 语 言 模型 方法 的 思 
路 正好 相反 ， 有 是 由 文档 到 查询 这 个 方向 ， 即 为 每 个 文档 建立 不 同 的 语 
言 模 型 ， 判 断 由 文档 生成 用 户 查 询 的 可 能 性 有 多 大 ， 然 后 按照 这 种 生 
成 概率 由 高 到 低 排序 ， 作 为 搜索 结果 。 

给 定 了 一 篇 文档 和 对 应 的 用 户 查询 ， 如 何 计算 文档 生成 查询 的 概 
率 呢 ? 图 5-10 展 示 了 利用 语言 模型 来 生成 得 询 的 过 程 。 首 先 ， 可 以 为 每 
个 文档 建立 一 个 语言 模型 ， 语 言 模型 代表 了 单词 或 者 单词 序列 在 文档 
中 的 分 布 情况 。 我 们 可 以 想象 从 文档 的 语言 模型 生成 查询 类 似 于 从 一 
个 疤 满 “单词 ?的 一 中 随机 抽取 ， 一 次 抽取 一 个 单词 ， 这 样 ， 每 个 单词 
都 有 一 个 被 抽取 到 的 概率 。 对 于 查询 中 的 单词 来 说 ， 每 个 单词 都 对 应 
人 


PC RID) P( 乔 布 斯 |D) P(iPad2|D) 


$ a) Jë wm iP aaa) 


D: 乔布斯 出 门 买 了 4 袋 苹 果 
图 5-10 “文档 生成 查询 


以 图 5-10 中 的 文档 为 例 ， 可 以 看 出 ， 文 档 D 包 售 5 个 单词 { 乔 布 斯 ， 
出 门 ， 买 了 ，4 绕 ， 苹 果 }， 每 个 单词 出 现 次 数 都 是 1 次 ， 所 以 抽取 到 这 
5 个 单词 的 概率 大 小 相同 ， 都 为 0.2， 这 个 单词 抽取 概率 分 布 就 是 文档 D 
对 应 的 一 元 语言 模型 。 为 文档 建立 一 元 语言 模型 后 ， 即 可 计算 文档 D 生 
成 用 户 查 询 { 苹 果 ， 乔 布 斯，iPad2} 的 概率 : 

P (Q|D) =P (苹果 |D) xP (乔布斯 |D) xP (iPad2|D) = 

0.2x0.2x0=0 

因为 文档 中 出 现 过 “苹果 ”和 “乔布斯 "两 个 单词 ， 其 对 应 的 概率 都 为 
0.2， 但 是 由 于 文档 D 没 有 出 现 过 单词 *iPad2”， 所 以 这 个 单词 的 生成 概 
率 为 0， 导 致 查询 整体 的 生成 概率 也 为 0。 从 这 个 例子 可 以 看 出 ， 由 于 
一 个 文档 文字 内 容 有 限 ， 所 以 很 多 碍 询 词 都 没有 在 文中 出 现 过 ， 这 会 
导致 基于 语言 模型 的 检索 方法 失效 ， 这 个 问题 被 称 做 语言 模型 的 数据 
黎 芷 问题 ， 是 语言 模型 方法 重点 需要 解决 的 问题 。 

一 般 采 用 数据 平滑 的 方式 解决 数据 稀 玻 问题 ， 所 谓 数据 平 请 ， 可 
以 理解 为 单词 分 布 概率 领域 的 * 动 富 济贫 ”， 即 从 文档 中 出 现 过 的 单词 


的 分 布 概率 值 中 取出 一 部 分 ， 将 这 些 值 分 配给 文档 中 没有 出 现 过 的 单 
词 ， 这 样 所 有 单词 都 有 一 个 非 零 的 概率 值 ， 避 免 计 算 中 出 现 问 题 。 

语言 模型 检索 方法 则 是 为 所 有 单词 引入 一 个 背景 概率 来 做 数据 平 
消 。 所 谓 背 景 概率 ， 束 是 给 文档 集合 建立 一 个 整体 的 语言 模型 ， 因 为 
其 规模 比较 大 ， 所 以 绝 大 多 数 查 询 词 都 有 一 个 概率 值 。 对 于 文档 集合 
的 一 元 语言 模型 ， 某 个 单词 的 背景 概率 就 是 这 个 单词 出 现 的 次 数 除 以 
文档 集合 的 单词 总 数 ， 这 与 一 个 文档 计算 语言 模型 是 一 致 的 ， 可 以 将 
背景 概率 的 计算 理解 为 :将 文档 集合 内 所 有 文档 拼接 成 一 个 虚拟 的 大 
文档 ， 然 后 给 这 个 虚拟 文档 建立 语言 模型 。 所 以 ， 对 于 语言 模型 方法 
来 说 ， 如 果 文 档 集 合 包含 N 个 文档 ， 则 需要 建立 N 十 1 个 不 同 的 语言 模 
型 ， 其 中 每 个 文档 建立 自己 的 语言 模型 ， 而 文档 集合 语言 模型 则 作为 
数据 平滑 的 用 处 。 

图 5-11 是 加 入 数据 平滑 后 的 文档 生成 查询 概率 计算 公式 ， 可 以 看 
出 ， 每 个 查询 词 的 生成 概率 由 两 部 分 构成 ， 一 部 分 是 之 前 提 到 的 文档 
语言 模型 ， 另 一 部 分 是 用 做 平滑 的 文档 集合 语言 模型 。 两 者 之 间 可 以 
通过 参数 调 世 其 权重 。 


P(Q\|D)(Q|D) = IJ;((1 - A) + Az) 


= ei 


文档 语言 模型 文档 集合 语言 模型 
图 5-11 文档 生成 查询 概率 计算 


了 解 了 如 何 计算 某 个 文档 生成 查询 的 概率 ， 那 么 如 何 对 文档 按照 
相关 性 排序 也 就 很 清楚 了 。 图 5-12 是 基于 语言 模型 方法 的 检索 系统 对 搜 
索 结 果 排 序 的 示意 图 ， 用 户 提交 查询 Q， 文 档 集 合 内 所 有 文档 都 计算 生 
成 Q 的 概率 ， 然 后 按照 生成 概率 值 由 大 到 小 排序 ， 这 就 是 搜索 结果 。 


用 户 查 询 Q 


文档 集合 语言 模型 
(D1, D2, D3) 


图 5-12 语言 模型 排序 


上 述 是 最 基本 的 语言 模型 检索 方法 思路 ， 很 多 全 究 在 此 基础 上 做 
出 了 改进 ， 比 如 HMM 隐 马尔 科 夫 语言 模型 、 相 关 模 型 、 翻 译 模型 等 诸 
多 改进 模型 对 基础 模型 做 出 了 改进 。 目 前 各 种 检索 评测 证 明 ， 语 言 模 
en 
x = 

语言 模型 检索 方法 从 形式 上 看 与 向 量 空间 模型 和 概率 模型 有 很 大 
夸 异 ， 其 实 它 们 之 间 有 密切 联系 。 通 过 理论 推 性 ， 可 以 得 出 :语言 模 
型 检索 方法 的 排序 公式 符合 概率 模型 的 概率 排序 原理 ， 所 以 可 以 归 为 
概率 模型 的 一 种 。 另 外 ， 通 过 一 些 公式 变形 推导 ， 可 以 将 其 公式 转化 
为 类 似 于 回 量 空间 模型 的 Tf*IDF 的 形式 ， 这 说 明了 几 种 模型 在 利用 计 
算 因 子 方面 的 一 致 性 。 


5.5 “机 器 学 习 排 序 (Learning to Rank) 


利用 机 器 学 习 技术 来 对 搜索 结果 进行 排序 ， 这 是 最 近 几 年 非常 热 
门 的 研究 领域 。 信 息 检 索 领 域 已 经 发 展 了 几 十 年 ， 为 何 将 机 器 学 习 技 
术 和 信息 检索 技术 相互 结合 出 现 较 晚 9 主要 有 两 方面 的 原因 。 

一 方面 是 因为 : 在 前 面 儿 和 所 述 的 基本 检索 模型 可 以 看 出 ， 用 来 
对 查询 和 文档 的 相关 性 进行 排序 ， 所 考虑 的 因素 并 不 多 ， 主 要 是 利用 
词 频 、 逆 文档 频率 和 文档 长 度 这 几 个 因子 来 人 工 拟 合 排序 公式 。 因 为 


考虑 因素 不 多 ， 由 人 工 进 行 公式 拟 合生 完全 可 行 的 ， 此 时 机 霹 学 习 并 
不 能 派 上 很 大 用 场 ， 因 为 机 融 学 习 更 适合 采用 很 多 特征 来 进行 公式 拟 
合 ， 此 时 大 指 望 人 工 将 几 十 种 考虑 因素 拟 合 出 排序 公式 是 不 太 现实 
的 ， 而 机 器 学 习 做 这 种 类 型 的 工作 则 非常 合适 。 随 着 搜索 引擎 的 发 
展 ， 对 于 某 个 网 页 进行 排序 需要 考虑 的 因素 越 来 越 多 ， 比 如 网 页 的 
PageRank 值 、 查 询 和 文档 亚 配 的 单词 个 数 、 网 页 URL 链 接地 址 长 度 等 
都 对 网 页 排名 产生 影响 ，Google 目 前 的 网 页 排序 公式 考虑 了 200 多 种 因 
子 ， 此 时 机 棍 学 习 的 作用 即 可 发 挥 出 来 ， 这 是 原因 之 一 。 

男 外 一 个 原因 是 :对 于 有 监督 机 器 学 习 来 说 ， 首 先 需 要 大 量 的 训 
练 数据 ， 在 此 基础 上 才 可 能 自动 学 习 排 序 模型 ， 单 靠 人 工 标 注 大 量 的 
训练 数据 不 太 现实 。 对 于 搜索 引擎 来 说 ， 尺 管 元 法 徘 人 工 来 标注 大 量 
训练 数据 ， 但 是 用 户 点 击 记 杂 是 可 以 当做 机 器 学 习 方法 训练 数据 的 一 
个 蔡 代 品 ， 比 如 用 户 发 出 一 个 查询 ， 搜 索引 苟 返 回 搜 索 结 果 ， 用 户 会 
点 击 其 中 某 些 网 页 ， 可 以 假设 用 户 点 击 的 网 页 是 和 用 户 查 询 更 加 相关 
的 页 面 。 尺 管 这 种 假设 很 多 时 候 并 不 成 立 ， 但 古 实 际 经 验 表明 使 用 这 
种 点 击 数据 来 训练 机 万 学 习 系 统 确实 是 可 行 的 。 


5.5.1 ”机 器 学 习 排 序 的 基本 思路 


传统 的 检索 模型 靠 人 工 拟 合 排序 公式 ， 并 通过 不 断 的 实验 确定 最 
佳 的 参数 组 合 ， 以 此 来 形成 相关 性 打分 函数 。 机 器 学 习 排 序 与 此 思路 
不 同 ， 最 合理 的 排序 公式 由 机 器 目 动 学 习 获 得 ， 而 人 则 需要 给 机 右 学 
习 提 供 训 练 数据 。 图 5-13 是 利用 机 器 学 习 进 行 排序 的 基本 原理 图 。 


机 器 学 习 排 序 系统 由 4 个 步 台 组 成 :， 人工 标注 训练 数据 、 文 档 特征 
抽取 、 学 习 分 类 函数 、 在 实际 搜索 系统 中 采用 机 絮 学 习 模 型 。 

首先 ， 由 人 工 标注 训练 数据 。 也 就 是 说 ， 对 于 某 个 查询 Q， 人 工 标 
出 哪些 文档 是 和 这 个 查询 相关 的 ， 同 时 标 出 相关 程度 ， 相 关 程 度 有 时 
候 可 以 用 数值 序列 来 表示 ， 比 如 从 1 分 到 5 分 为 5 个 档次 ，1 代 表 微弱 相 
关 ，5 代 表 最 相关 ， 其 他 数值 代表 相关 性 在 两 者 之 间 。 对 于 某 个 查询 ， 
可 能 相关 文档 众多 ， 同 时 用 户 查 询 也 五 花 八 门 ， 所 以 全 部 靠 人 工 标 注 
lea 。 此 时 ， 可 以 利用 用 户 点 击 记录 来 模拟 这 种 人 工 打分 

J] o 


对 于 机 器 学 习 系 统 来 说 ， 输 入 是 用 户 碍 询 和 一 系列 标注 好 的 文 
档 ， 机 器 学 习 系 统 需要 学 习 打 分 函数 ， 然 后 按照 打分 函数 输出 搜索 结 
果 。 但 是 在 其 内 部 ， 每 个 文档 是 由 才干 特征 构成 的 ， 即 每 个 文档 进入 
On 
HTA: 


查询 词 在 文档 中 的 词 频 信息 ,; 
查询 词 的 IDF 信 息 ; 
文档 长 度 ; 
网 页 的 入 链 数 量 ，; 
网 页 的 出 链 数量 ; 
网 页 的 PageRank 值 ; 
网 页 的 UREL 长度; 
区 查询 词 的 Proximity 值 ， 即 在 文档 中 多 大 的 窗口 内 可 以 出 现 所 有 
查询 词 。 
以 上 所 列 只 是 影响 排序 的 一 部 分 特征 ， 实 际 上 还 有 很 多 类 似 的 特 
征 可 以 作为 特征 向 量 中 的 一 维 加 入 。 在 确定 了 特征 数量 后 ， 即 可 将 文 
档 转 换 为 特征 向 量 X， 前 面 说 过 每 个 文档 会 人 工 标 出 其 相关 性 得 分 Y， 
这 样 每 个 文档 会 转换 为 <X,Y> 的 形式 ， 即 特征 疝 量 及 其 对 应 的 相关 性 得 
分 ， 这 样 就 形成 了 一 个 具体 的 训练 实例 。 
通过 多 个 训练 实例 ， 就 可 以 采用 机 器 学 习 技 术 来 对 系统 进行 训 
练 ， 训 练 的 结果 往往 是 一 个 分 类 函数 或 者 回归 函数 ， 在 之 后 的 用 户 搜 
索 中 ， 就 可 以 用 这 个 分 类 函数 对 文档 进行 打分 ， 形 成 搜索 结果 。 
从 目前 的 研究 方法 来 说 ， 可 以 将 机 器 学 习 排 序 方法 分 为 以 下 3 种 : 
单 文档 方法 、 文 档 对 方法 和 文档 列表 方法 。 


5.5.2 SPATE (PointWise Approach) 


单 文档 方法 的 处 理 对 象 是 单独 的 一 篇 文档 ， 将 文档 转换 为 特征 回 
量 后 ， 机 天 学 习 系 统 根 据 从 训练 数据 中 学 习 到 的 分 类 或 者 回归 函 效 对 
文档 打分 ， 打 分 结 采 即 是 搜索 结 采 。 下 面 我 们 用 一 个 简单 的 例子 说 明 
这 种 方法 。 

图 5-14 是 人 工 标注 的 训练 集合 ， 在 这 个 例子 中 ， 我 们 对 于 每 个 文档 
采用 了 3 个 特征 : 查询 与 文档 的 Cosine 相 似 性 分 值 、 查 询 词 的 Proximity 
值 及 页 面 的 PageRank 效 值 ， 而 相关 性 判断 是 二 元 的 ， 即 要 么 相关 要 人 么 


不 相关 ， 当 然 ， 这 里 的 相关 性 判断 完全 可 以 按照 相关 程度 扩展 为 多 元 
的 ， 本 例 为 了 方便 说 明 做 了 简化 。 


文档 ID 用 户 查询 Cosine 相似 度 Proximity PageRank “相关 性 


图 5-14 ”训练 数据 


例子 中 提供 了 5 个 训练 实例 ， 每 个 训练 实例 分 别 标 出 了 其 对 应 的 查 
询 ，3 个 特征 的 得 分 情况 及 相关 性 判断 。 对 于 机 器 学 习 排序 系统 来 说 ， 
根据 训练 数据 ， 需 要 学 习 如 下 的 线性 打分 函数 
Score (Q, D) =axCS+bxPM+cxPR+d 


这 个 公式 中 ，CS 代 表 Cosine 相 似 度 变 量 ，PM 代 表 Proximity 值 变 
量 ，PR 代 表 PageRank 值 变量 ， 而 a、b、c、d 则 是 变量 对 应 的 参数 。 如 
果 得 分 大 于 一 设 定 靖 值 ， 则 可 以 认为 是 相关 的 ， 如 果 小 于 设 定 靖 值 则 
可 以 认为 不 相关 。 通 过 训练 实例 ， 可 以 获得 最 优 的 a、b、c、d 参 数组 
合 ， 当 这 些 参 数 确 定 后 ， 机 屁 学 习 系 统 就 算 学 习 完 毕 ， 之 后 即 可 利用 
这 个 打分 函数 来 进行 相关 性 判断 。 对 于 某 个 新 的 查询 Q 和 文档 D， 系 统 
首先 获得 其 文档 D 对 应 的 3 个 特征 的 特征 值 ， 之 后 利用 学 习 到 的 参数 组 
合计 算 两 者 得 分 ， 当 得 分 大 于 设 定 的 病 值 ， 即 可 判断 文档 是 相关 文 
档 ， 人 否则 判断 为 不 相关 文档 。 


5.5.3 ”文档 对 方法 (PairWise Approach) 


对 于 搜索 任务 来 说 ， 系 统 接收 到 用 户 查询 后 ， 返 回 相 关 文 档 列 
表 ， 所 以 问题 的 关键 是 确定 文档 之 间 的 先后 顺序 关系 。 单 文档 方法 完 
全 从 单个 文档 的 分 类 得 分 角度 计算 ， 没 有 考虑 文档 之 间 的 顺序 关系 。 
文档 对 方法 则 将 重点 转向 了 对 文档 顺序 关系 是 否 合理 进行 判断 。 


之 所 以 被 称 为 文档 对 方法 ， 是 因为 这 种 机 右 学 习 方 法 的 训练 过 程 
和 训练 目标 ， 是 判断 任意 两 个 文档 组 成 的 文档 对 <Doc1,Doc2> 是 否 满 足 
顺序 关系 ， 即 判断 是 否 Doc1 应 该 排 在 Doc2 的 前 面 。 图 5-15 展 示 了 一 个 
训练 实例 ， 查询 Q1 对 应 的 搜索 结果 列表 如 何 转换 为 文档 对 的 形式 ， 
为 从 人 工 标注 的 相关 性 得 分 可 以 看 出 ，Doc2 得 分 最 高 ，Doc3 次 之 ， 
Doc1 得 分 最 低 ， 于 是 我 们 可 以 按照 得 分 大 小 顺序 关系 得 到 3 个 如 图 5-15 
所 示 的 文档 对 ， 将 每 个 文档 对 的 文档 转换 为 特征 网 量 后 ， 束 形成 了 一 
个 具体 的 训练 实例 。 


5>3 5>4 4>3 


图 5-15 文档 对 方法 的 训练 实例 


根据 转换 后 的 训练 实例 ， 就 可 以 利用 机 器 学 习 方 法 进行 分 类 函数 
的 学 习 ， 具 体 的 学 习 方 法 有 很 多 ， 比 如 SVM、Boost、 神 经 网 络 等 都 可 
以 作为 具体 的 学 习 方 法 ， 但 是 不 论 具 体 方法 是 什么 ， 其 学 习 目 标 都 是 
一 致 的 ， 即 输入 一 个 查询 和 文档 对 <Doc1,Doc2>， 机 器 学 习 排序 能 够 判 
断 这 种 顺序 关系 是 否 成 立 ， 如 果 成 立 ， 那 么 在 搜索 结果 中 Docl 应 该 排 
在 Doc2 前 面 ， 否 则 Doc2 应 该 排 在 Doc1 前 面 。 通 过 这 种 方式 ， 就 完成 搜 
索 结 果 的 排序 任务 。 

尽管 文档 对 方法 相对 单 文档 方法 做 出 了 改进 ， 但 是 这 种 方法 也 存 
在 两 个 明显 的 问题 。 一 个 问题 是 : 文档 对 方法 只 考虑 了 两 个 文档 对 的 
相对 先后 顺序 ， 却 没有 考虑 文档 出 现在 搜索 列表 中 的 位 置 。 排 在 搜索 
结果 前 列 的 文档 更 为 重要 ， 如 果 前 列 文 档 出 现 判 断 错误 ， 代 价 明 显 高 
于 排 在 后 面 的 文档 。 针 对 这 个 问题 的 改进 思路 是 引入 代价 敏感 因素 ， 
即 每 个 文档 对 根据 其 在 列表 中 的 顺序 具有 不 同 的 权重 ， 越 是 排 在 前 列 


的 权重 越 大 ， 即 在 搜索 列表 前 列 如 采 排 错 顺 序 的 话 其 付出 的 代价 更 


i 


[可 


另外 一 个 问题 是 : 不 同 的 查询 ， 其 相关 文档 数量 差异 很 大 ， 所 以 
转换 为 文档 对 之 后 ， 有 的 查询 可 能 有 几 百 个 对 应 的 文档 对 ， 而 有 的 查 
询 只 有 十 几 个 对 应 的 文档 对 ， 这 对 机 器 学 习 系 统 的 效果 评价 造成 困 
难 。 我 们 设想 有 两 个 查询 ， 查 询 Q1 对 应 500 个 文档 对 ， 查 询 Q2 对 应 10 


个 文档 对 ， 假 设 学 习 系 统 对 于 查询 Q1 的 文档 对 能 够 判断 正确 480 个 ， 对 
于 查询 Q2 的 文档 对 能 够 判断 正确 2 个 ， 如 果 从 总 的 文档 对 数量 来 看 ， 这 
个 学 习 系 统 的 准确 率 是 (480 十 2) 7% (500110) =0.95， 即 952% 的 准 
确 率 ， 但 是 从 查询 的 角度 ， 两 个 查询 对 应 的 准确 率 分 别 为 : 9626 和 
2026， 两 者 平均 为 58% ， 与 纯粹 从 文档 对 判断 的 准确 率 相差 其 远 ， 这 
对 如 何 继续 调 优 机 器 学 习 系统 会 带 来 困扰 。 


5.5.4 ”文档 列表 方法 (Listwise Approach) 


单 文 档 方法 将 训练 集 里 每 一 个 文档 当做 一 个 训练 实例 ， 文 档 对 方 
法 将 同一 个 查询 的 搜索 结果 里 任意 两 个 文档 对 作为 一 个 训练 实例 ， 文 
档 列 表 方 法 与 上 述 两 种 表示 方式 不 同 ， 是 将 每 一 个 查询 对 应 的 所 有 搜 
索 结 果 列 表 整 体 作为 一 个 训练 实例 ， 这 也 是 为 何 称 之 为 文档 列表 方法 
的 原因 。 

文档 列表 方法 根据 K 个 训练 实例 (一 个 查询 及 其 对 应 的 所 有 搜索 结 
果 评 分 作为 一 个 实例 ) 训练 得 到 最 优 评分 函数 F， 对 于 一 个 新 的 用 户 查 
询 ， 画 数 F 对 每 一 个 文档 打分 ， 之 后 按照 得 分 顺序 由 高 到 低 排 序 ， 就 是 
对 应 的 搜索 结果 。 

所 以 关键 问题 是 : 拿 到 训练 数据 ， 如 何 才能 训练 得 到 最 优 的 打分 
函数 ? 本 节 介 绍 一 种 训练 方法 ， 它 是 基于 搜索 结果 排列 组 合 的 概率 分 
布 情况 来 训练 的 ， 图 5-16 是 这 种 方式 训练 过 程 的 图 解 示 意 。 首 先 解 释 下 
什么 是 搜索 结果 排列 组 合 的 概率 分 布 ， 我 们 知道 ， 对 于 搜索 引擎 来 
说 ， 用 户 输 入 查询 Q， 搜 索引 警 返回 搜索 结果 ， 我 们 假设 搜索 结果 集合 
包含 A、B 和 C 3 个 文 要 ， 搜 索引 警 要 对 搜索 结果 排序 ， 而 这 3 个 文档 的 
顺序 共有 6 种 排列 组 合 方式 : ABC，ACB，BAC，BCA，CAB 和 CBA， 
而 每 种 排列 组 合 都 是 一 种 可 能 的 搜索 结果 排序 方法 。 
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图 5-16 不 同 评分 画 数 的 KL 距离 


对 于 某 个 评分 函数 F 来 说 ， 对 3 个 搜索 结果 文档 的 相关 性 打分 ， 得 
到 3 个 不 同 的 相关 度 得 分 F (A) CF B) AF (C) ,根据 这 3 个 得 分 就 
可 以 计算 6 种 排列 组 合 情 况 各 自 的 概率 值 。 不 同 的 评分 函数 ， 其 6 种 搜 
索 结果 排列 组 合 的 概率 分 布 是 不 一 样 的 。 

了 解 了 什么 是 搜索 结果 排列 组 合 的 概率 分 布 ， 我 们 介绍 如 何 根据 
训练 实例 找到 最 优 的 评分 函数 。 图 5-16 展 示 了 一 个 具体 的 训练 实例 ， 即 
查询 Q1 及 其 对 应 的 3 个 文档 的 得 分 情况 ， 这 个 得 分 是 由 人 工 打上 去 的 ， 
所 以 可 以 看 做 是 标准 答案 。 可 以 设想 存在 一 个 最 优 的 评分 函数 g， 对 查 
询 Q1 来 说 ， 其 打分 结果 是 :A 文档 得 6 分 ，B 文 档 得 4 分 ，C 文 档 得 3 分 ， 
因为 得 分 是 人 工 打 的 ， 所 以 具体 这 个 函数 g 是 怎样 的 我 们 不 清楚 ， 我 们 
的 任务 就 是 找到 一 个 函数 ， 使 得 函数 对 Q1 的 搜索 结果 打分 顺序 和 人 工 
打分 顺序 尽 可 能 相同 。 有 既然 人 工 打 分 〈 虚 拟 的 函数 g) 已 知 ， 那 么 我 们 
可 以 计算 函数 g 对 应 的 搜索 结果 排列 组 合 概率 分 布 ， 其 具体 分 布 情况 如 
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图 5-16 中 间 的 概率 分 布 所 示 。 假 设 存在 两 个 其 他 画 数 hH 和 f， 它 们 的 计算 
方法 已 知 ， 对 应 的 对 3 个 搜索 结果 的 打分 在 图 上 可 以 看 到 ， 由 打分 结果 
也 可 以 推出 每 个 画 数 对 应 的 搜索 结果 排列 组 合 概率 分 布 ， 那 么 h 和 f 哪 个 
与 虚拟 的 最 优 评分 画 数 g 更 接近 呢 ? 一般 可 以 用 两 个 分 布 概 率 之 间 的 距 
离 远 近来 度量 这 种 相似 性 ，KL 距 离 就 是 一 种 衡量 概率 分 布 差异 大 小 的 
计算 工具 ， 通 过 分 别 计算 h 与 g 的 差异 大 小 及 f 与 g 的 差异 大 小 ， 可 以 看 出 
f 比 h 更 接近 于 虚拟 的 最 优 画 数 g， 那 么 在 这 两 个 商 数 中 ， 我 们 应 该 优选 f 
作为 将 来 搜索 可 用 的 评分 画 数 。 训 练 过 程 就 是 在 可 能 的 画 数 中 寻找 最 
接近 虚拟 最 优 画 数 g 的 那个 画 数 作为 训练 结果 ， 将 来 作为 在 搜索 时 的 评 
分 面 数 。 

上 述 例 子 只 是 描述 了 对 于 单个 训练 实例 如 何 通过 训练 找到 最 优 画 
数 ， 事 实 上 我 们 有 K 个 训练 实例 ， 虽 然 如 此 ， 其 训练 过 程 与 上 述说 明 是 
类 似 的 ， 可 以 认为 存在 一 个 虚拟 的 最 优 评分 画 数 g (实际 上 是 人 工 打 
分 ) ， 训 练 过 程 就 是 在 所 有 训练 实例 基础 上 ， 探 寻 所 有 可 能 的 候选 画 
Ma PALES ASE Peg, 以 此 作为 实际 使 用 的 评分 
EKI ° 

经 验 结果 表明 ， 基 于 文档 列表 方法 的 机 器 学 习 排序 效果 要 好 于 前 
述 两 种 方法 。 


5.6 ”检索 质量 评价 标准 


在 搜索 系统 最 终 推出 之 前 ， 一 般 都 要 对 其 性 能 进行 评测 。 除 了 时 
间 和 和 择 间 等 运行 效率 方面 的 评测 外 ， 更 重要 的 是 对 搜索 结 采 质量 进行 
评测 。 人 研发 人 员 可 以 根据 测试 结 采 选择 效 末 较 好 的 搜索 技术 ， 或 验证 
搜索 系统 在 真实 环境 中 运行 时 的 实际 效 末 ， 以 辅助 系统 不 断 进 行 设 
计 、 人 研究 和 改进 。 因 此 搜索 系统 的 性 能 评测 对 于 系统 的 研制 和 发 展 是 
至 天 重要 的 。 

如 何 评 价 搜索 结果 质量 呢 ? 最 广 为 接 受 的 评价 标准 是 用 精确 率 和 
召回 率 这 两 个 指标 来 评价 搜索 质量 。 


5.6.1 精确 率 与 召回 率 


给 定 一 个 固定 的 用 户 搜 索 请 求 ， 搜 索 系 统 将 系统 认为 和 用 户 请 求 
相关 的 文档 返回 给 用 户 。 对 于 这 次 搜索 行为 ， 可 以 根据 两 个 维度 来 将 
所 有 文档 构成 的 集合 划分 成 4 个 互 不 相交 的 子 集 (参考 图 5-17) 。 一 个 
维度 是 : “该 文档 是 否 与 用 户 发 出 的 搜索 请 求 相 关 ”， 由 此 维度 ， 可 以 
将 整个 文档 集合 划分 为 相关 与 不 相关 两 种 类 型 ， 图 5-17 中 的 第 1 列表 示 


相关 文档 ， 第 2 列表 示 不 相关 文档 ; 第 2 个 维度 是 : “文档 是 否 在 本 次 搜 
索 结 果 列 表 里 ”， 由 此 维度 ， 可 以 将 整个 文档 集合 划分 为 “在 本 次 搜索 
结 琳 列表 ”与 “不 在 本 次 搜索 结 琳 列表 ”两 种 类 型 ， 图 5-17 中 的 第 1 行 表 示 
本 次 搜索 结果 包含 的 文档 列表 ， 第 2 行 表示 集合 中 不 在 本 次 搜索 结果 列 
表 中 出 现 的 其 他 文档 。 


是 否 与 查询 相关 


是 否 在 检索 结果 内 


图 5-17 ”观察 文档 集合 的 两 个 维度 


将 以 上 两 个 划分 维度 组 合 ， 把 文档 集合 切割 为 4 个 互 不 相交 的 子 
集 。 如 图 5-17 所 示 坐 标 中 ， 左 上 角 的 子 集 代 表 “ 在 本 次 搜索 结 采 中 与 搜 
索 请 求 相关 ?的 文档 ， 假 设 集合 大 小 为 N; 右上 角 的 子 集 代表 “在 本 次 搜 
索 结果 中 与 搜索 请 求 不 相关 ”的 文档 ， 假 设 集合 大 小 为 M; 左下 角 的 子 
集 代 表 “ 在 本 次 搜索 结 朱 之 外 与 搜索 请 求 相关 ”的 文档 ， 即 那些 本 来 应 
该 由 搜索 系统 返回 但 因为 算法 原因 没有 找到 的 相关 文档 ， 假 设 集合 
小 为 K; 石 下 角 的 子 集 代 表 “ 在 本 次 搜索 结 采 之 外 且 与 搜索 请 求 无 天 ”的 
文档 ， 假 设 集合 大 小 为 L。 

在 将 文档 集合 划分 为 4 个 子 集 的 基础 上 ， 我 们 可 以 对 精确 率 和 召回 
率 进 行 定量 描述 ， 如 图 5-18 所 示 是 这 两 个 指标 的 计算 方法 。 


召回 率 := 


图 5-18 ”精确 率 与 召回 率 


所 谓 精 确 率 ， 束 古本 次 搜索 结果 中 相关 文档 所 占 的 比例 ， 分 子 为 
本 次 搜索 结果 中 的 相关 文档 ( 即 图 5-17 中 的 左上 角子 集 ) ， 分母 为 本 次 
a a 


所 谓 召 回 率 ， 即 本 次 搜索 结 采 中 包 舍 的 相关 文档 占 整 个 集合 中 所 
有 相关 文档 的 比例 ， 分 子 与 精确 率 分 子 相同 ， 即 本 次 搜索 结 采 中 包 合 
的 相关 文档 ， 分 母 为 整个 文档 集合 所 包含 的 所 有 相关 文档 ( 即 图 5-17 中 
的 第 1 列 ) ， 两 者 相 除 得 到 召回 率 。 召 回 率 用 于 评价 搜索 系统 是 否 把 该 
找 出 的 文档 都 找 出 来 了 。 

精确 率 和 召回 率 古 常见 的 评 们 检索 系统 的 指标 但 古 对 于 搜索 引 
擎 来 说 ， 精 确 率 更 为 重要 ， 因 为 搜索 引擎 处 理 海量 数据 ， 一 方面 在 这 
种 环境 下 ， 对 于 某 个 查询 ， 找 到 与 这 个 查询 相关 的 所 有 文档 (也 即 计 
算 召 回 率 公式 的 分 母 ) 难度 很 大 ， 导 致 召回 率 很 难 准确 计算 ;另外 一 
方面 由 于 数据 量 比较 大 ， 所 以 能 够 满足 用 户 需 求 的 文档 量 也 很 大 ， 用 
户 很 少 需要 看 到 所 有 相关 文档 ， 往 往 是 看 到 一 部 分 即 可 满足 搜索 需 
求 ， 全 部 召回 相关 文档 对 于 满足 用 户 需 求 意义 也 不 是 特别 重要 。 而 相 


对 应 地 ， 精 确 率 在 搜索 引擎 场景 下 就 非常 重要 了 ， 因 为 排 在 搜索 列表 
前 列 的 搜索 结果 如 果 有 太 多 不 相关 的 内 容 ， 直 接 影 响 用 户 体 验 ， 所 以 
对 于 搜索 引擎 质量 评估 来 说 ， 往 往 更 加 关注 精确 率 。 

上 面 介 绍 的 精确 率 和 召回 率 的 计算 方法 只 是 通用 的 计算 框架 ， 在 
具体 评估 时 ， 需要 做 更 加 精细 的 考虑 。 常 用 的 评估 搜索 引擎 精度 的 指 
标 有 P@10 和 MAP。 


5.6.2 PQ@10 指 标 


p@10 指 标 更 关注 搜索 结果 排名 最 先前 文档 的 结果 质量 ， 它 用 于 评 
估 在 搜索 结果 排名 最 靠 前 的 头 10 个 文档 中 有 多 大 比例 是 相关 的 。 图 5-19 
是 pP@O10 计 算 的 一 个 示例 ， 打 对 钩 的 文档 代表 与 用 户 查 询 相 关 ， 又 号 代 
0 在 这 个 例子 中 ， 头 10 个 文档 中 包含 了 5 个 相关 文档 ， 所 以 其 精 
度 为 0.5。 
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图 5-19 p@10 指 标 
5.6.3 MAP 指标 (Mean Average Precision ) 


MAP 指 标 是 针对 多 次 查询 的 平均 准确 率 衡 量 标准 ， 是 评价 检索 系 
统 质量 的 常用 指标 ， 如 果 习 惯 阅读 信息 检索 相关 学 术 论 文 的 话 ， 会 经 
党 在 论文 中 过 到 这 个 评价 指标 。 

要 了 解 MAP， 首 先 需要 了 解 AP (Average Precision) 。MAP 是 衡 
量 多 个 查询 的 平均 检索 质量 的 ， 而 AP 是 衡量 单个 查询 的 检索 质量 的 ， 
BS 2078 ATV ROR IAP tS 分 的 示意 图 。 例 子 中 假设 与 用 户 查 
询 相 关 的 文档 有 3 个 ， 经 过 搜索 系统 输出 后 ， 分 别 排 在 搜索 结果 的 第 2 


位 、 第 4 位 和 第 6 位 ， 如 果 是 一 个 理想 的 搜索 系统 ， 理 论 上 应 该 将 这 3 个 
文档 排 在 第 1 位 、 第 2 位 和 第 3 位 ， 所 以 用 这 3 个 文档 的 理想 排名 位 置 除 
以 实际 排名 位 置 ， 会 得 到 每 个 文档 的 得 分 ，3 个 文档 求 平 均值 得 到 本 次 
搜索 的 AP 值 0.5。AP 值 越 高 ， 则 意味 看 越 接近 理想 的 搜索 结 ， 说 明 检 
索 系统 质量 越 好 。 如 果 例 子 中 的 3 个 相关 文档 分 别处 于 搜索 结果 的 第 1 
位 、 第 2 位 和 第 3 位 ， 那 么 AP 值 为 1， 这 就 是 理想 的 搜索 结果 。AP 指 标 
eee 吉 果 的 相关 性 和 系统 召回 率 ， 这 是 为 何 被 经 常 采用 的 
ik [A] ° 
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图 5-20 ”AP 计算 过 程 


AP 是 针对 单 次 查询 的 衡量 指标 ， 如 果 存 在 多 组 查询 ， 那 么 每 个 查 
Hi 会 有 自己 的 AP 值 ， 对 这 些 查 询 的 AP 值 求 平 均值 ， 束 得 到 了 MAP 指 
FK 


本 章 提要 


ARIRE SEHER AUER 仑 基础 ， 用 来 计算 网 页 和 用 户 碍 
询 的 相关 性 
几 种 常用 的 检索 模型 包括 :布尔 模型 、 癌 量 空 间 模型 、 概 率 模 
型 、 语 言 模型 及 最 近 几 年 兴起 的 机 器 学 习 排序 算法 。 


目前 大 部 分 商业 搜索 引擎 采用 概率 模型 作为 相关 性 排序 模型 ， 
而 BM25 则 和 是 目前 效果 最 好 的 概率 检索 模型 。 

精确 率 和 召回 率 是 评价 检索 系统 的 常用 指标 ， 而 对 于 搜索 引擎 
来 说 ， 精 确 率 尤 为 重要 。 
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第 6 章 ”链接 分 析 


“ 方 以 类 聚 ， 物 以 群 分 ， 吉 邮 生 侨 。” 
Ə AZRAEL) 


搜索 引擎 在 查找 能 够 满足 用 户 请 求 的 网 页 时 ， 主 要 考虑 两 方面 的 
AA: 一 方面 是 用 户 发 出 的 查询 与 网 页 内 容 的 内 容 相似 性 得 分 ， 即 网 
页 和 查询 的 相关 性 ， 第 5 章 已 经 就 内 容 相似 性 计算 做 了 介绍 ; AT 
束 古 通过 链接 分 析 方 法 计算 获得 的 得 分 ， 即 网 页 的 重要 性 。 搜 索引 擎 
融合 两 者 ， 共 同 拟 合 出 相似 性 评分 瑟 数 ， 来 对 搜索 结果 进行 排序 。 本 
章 主 要 介绍 一 些 著名 的 链接 分 析 方 法 。 


6.1 Web 图 


互联 网 包含 了 海量 网 页 ， 而 网 页 和 一 般 文 本 的 一 个 重要 区 别 是 在 
页 面 内 容 中 包含 相互 引用 的 链接 (Link) ， 如 采 将 一 个 网 页 抽象 成 一 
个 太 护 ， 而 将 网 页 之 间 的 链接 理解 为 一 条 有 癌 边 ， 则 可 以 把 整个 互联 
网 抽象 为 一 个 包含 页 面 节 点 和 节点 之 间 联 系 边 的 有 向 图 ， 称 之 为 Web 
图 。 图 6-1 给 出 了 Web 图 的 形象 化 表示 。 


图 6-1 Web 图 的 形象 化 表示 


Web 疼 羡 对 互联 网 的 一 种 宏观 抽象 ， 其 微观 构成 元 素 是 一 个 个 单独 
的 网 页 。 对 于 某 个 单独 的 网 页 A 来 说 (参见 图 6-2) ， 在 其 内 容 部 分 往 
往 会 包含 指向 其 他 网 页 的 链接 ， 这 些 链 接 一 般 称 为 页 面 A 的 出 链 (Out 
Link) 。 因 为 网 页 A 是 在 一 个 网 状 结构 中 ， 所 以 不 仅 网 页 A 会 指向 其 他 
页 面 ， 也 会 有 很 多 其 他 页 面 有 链接 指向 网 页 A， 那 么 这 些 指向 网 页 A 的 
链接 称 为 网 页 A 的 入 链 (In Link) 。 在 图 6-2 中 ， 网 页 A 有 两 条 出 链 和 一 
条 入 链 。 


网 页 B 网 页 A 
图 6-2 入 链 与 出 链 


锁 文 字 也 是 网 页 中 一 种 常见 且 非 常 有 用 的 信息 。 所 谓 锁 文 字 ， 惑 
征 页 面 内 某 个 出 链 附 近 的 一 些 棉 述 文字 。 之 所 以 锁 文 字 会 比较 重要 ， 
征 因为 锚 文 字 往 往 是 对 目标 网 页 的 一 种 概括 性 描述 ， 所 以 在 很 多 技术 
方法 里 都 会 利用 这 个 信息 来 代表 目标 网 页 的 含义 。 图 6-3 给 出 了 一 个 锚 
文字 与 链接 之 间 的 关系 示意 图 。 
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图 6-3 锚 文 字 与 链接 之 间 的 关系 示意 图 
6.2 ”两 个 概念 模型 及 算法 之 间 的 关系 


在 介绍 具体 链接 分 析 算 法 之 前 ， 首 先 介绍 两 个 概念 模型 ， 并 对 各 
个 链接 分 析 算 法 之 间 的 关系 进行 说 明 ， 这 样 有 助 于 读者 从 宏观 角度 理 
解 各 个 算法 的 基本 思路 与 传承 关系 。 


6.2.1 ”随机 游 走 模型 (Random Surfer Model) 


互联 网 用 户 在 上 网 时 ， 往 往 有 类 似 的 网 络 行 为 : 输入 网 址 ， 浏 览 
页 面 ， 然 后 顺 着 页 面 的 链接 不 断 打开 新 的 网 页 。 随 机 游 走 模型 就 是 针 
对 浏览 网 页 的 用 户 行 为 建立 的 抽象 概念 模型 。 之 所 以 要 建立 这 个 抽象 
概念 模型 ， 是 因为 包括 PageRank 算 法 在 内 的 很 多 链接 分 析 算 法 都 是 建 
立 在 随机 游 走 模型 基础 上 的 。 


图 6-4 给 出 了 随机 游 走 模型 的 示意 图 。 在 最 初 阶段 ， 用 户 打 开 浏 览 
郁 浏 览 第 1 个 网 页 ， 假 设 我 们 有 一 个 虚拟 时 钟 用 来 计时 ， 此 时 可 以 设 定 
时 间 为 1， 用 户 在 看 完 网 页 后 ， 对 网 页 内 某 个 链接 指向 的 页 面 感 兴趣 ， 
于 是 扩 击 该 链接， 进入 第 2 个 页 面 ， 此 时 虚拟 时 钟 再 次 计时 ， 时 钟 走 癌 
数字 2， 如 果 网 页 包含 了 k 个 出 链 ， 则 用 户 从 当前 页 面 跳 转 到 任意 一 个 
链接 所 指向 页 面 的 概率 是 相等 的 。 用 户 不 断 重复 以 上 过 程 ， 在 相互 有 
链接 指向 的 页 面 之 间 跳 转 。 如 有 果 对 于 某 个 页 面 所 包含 的 所 有 链接 ， 用 
性 都 没有 兴趣 继续 浏览 ， 则 可 能 会 在 浏览 器 中 输入 男 外 一 个 网 址 ， 直 
接 到 达 该 网 页 ， 这 个 行为 称 为 远程 跳 转 (Teleporting) 。 假 设 互 联网 中 
共有 m 个 页 面 ， 则 用 户 远 程 跳 转 到 任意 一 个 页 面 的 概率 也 是 相等 的 ， 即 
为 Wm。 随 机 游 走 模 型 整 是 一 个 对 直接 跳 转 和 远程 跳 转 两 种 用 户 济 钢 行 
为 进行 抽象 的 概念 模型 。 


图 6-4 ”随机 游 走 模型 示意 图 


下 面 我 们 给 出 一 个 具体 的 随机 游 走 模型 的 例子 ， 为 简单 起 见 ， 该 
例子 并 未 引入 远程 跳 转 行为 。 

在 如 图 6-5 所 示 的 例子 里 ， 假 设 互 联网 由 A、B、C 3 个 网 页 构成 ， 
其 相互 链接 关系 如 图 中 页 面世 点 之 间 的 有 向 边 所 示 。 根 据 链接 关系 ， 
即 可 计算 页 面世 点 之 间 的 转移 概率 ， 比 如 对 于 节点 A 来 说， 只 有 唯一 一 
个 出 链 指 癌 节点 B， 所 以 从 世 点 A 跳 转 到 节点 B 的 概率 为 |， 对 于 万 点 C 


其 对 节点 A 和 B 都 有 链接 指向 ， 所 以 转向 任意 一 个 其 他 节点 的 概 
率 为 /2 。 


图 6-5 ”随机 游 走 模型 示例 


假设 在 时 刻 1， 用 户 浏 览 页 面 A， 之 后 经 由 链接 进入 页 面 B， 然 后 
进入 页 面 C， 此 时 面临 两 种 可 能 选择 ， 跳 转 进 入 页 面 A 或 者 页 面 B 宵 
可 ， 两 者 概率 相同 ， 都 为 12。 

假设 例子 中 的 互联 网 包含 不 止 3 个 页 面 ， 而 是 由 10 个 页 面 构成 ， 此 
时 用 户 既 不 想 跳 回 页 面 A， 也 不 想 跳 回 页 面 B， 则 可 以 按照 V10 的 概率 
跳 入 其 他 任意 一 个 页 面 ， 即 进行 远程 跳 转 。 


6.2.2 ” 子 集 传播 模型 


子 集 传播 模型 是 从 诸多 链接 分 析 算 法 中 抽象 出 来 的 概念 模型 ( 参 
见 图 6-6) 。 其 基本 思想 是 在 做 算法 设计 时 ， 把 互联 网 网 页 按照 一 定 规 
则 划分 ， 分 为 两 个 甚至 是 多 个 于 集合 。 其 中 菏 个 子 集合 具有 特殊 性 
质 ， 很 多 算法 往往 从 这 个 具有 特殊 性 质 的 子 集 合 出 发 ， 给 予 子 集合 
网 页 初始 权 值 ， 之 后 根据 这 个 特殊 子 集合 内 网 页 和 其 他 网 页 的 链接 关 
系 ， 按 照 一 定 方式 将 权 值 传递 到 其 他 网 页 。 


图 6-6 子 集 传播 模型 


本 章 介 绍 的 一 些 链 接 分 析 算法 符合 子 集 传播 模型 ， 比 如 HITS 算 法 
和 Hilltop 算 法 及 其 衍生 算法 ， 在 “网 页 反 作 咀 " 一 章 〈 第 8 章 ) 会 看 到 更 
多 符合 此 模型 的 链接 分 析 算 法 。 

子 集 传播 模型 是 个 高 度 抽象 的 算法 框架 ， 很 多 算法 可 以 认为 古 属 
于 此 框架 的 具体 实例 ， 即 整体 思路 如 上 面 所 手 述 的 流程 ， 通 党 在 以 下 
几 个 方面 各 目 存 在 不 同 。 

如 何 定 义 特 殊 子 集合 ， 即 在 确定 子 集合 内 的 网 页 应 该 有 哪些 特 

殊 性 质 ， 具 体 算法 规则 不 同 。 

| 在 确定 了 等 殊 子 集合 所 具有 的 性 质 后 ， 如 何 对 这 个 特殊 子 集合 
内 网 页 给 予 一 定 的 初始 分 值 ? 不 同 算法 打分 方式 各 异 。 

` 从 特殊 子 集合 将 其 分 值 传播 到 其 他 网 页 时 ， 采 取 何 种 传播 方 
A? 可 传播 的 距离 有 多 远 ? 不 同 算法 在 此 阶段 也 大 都 有 差异 。 


TER: 子 集 传播 模型 是 本 书 作者 从 具体 链接 分 析 算 法 中 归纳 出 的 抽象 模型 ， 未 见 有 文献 
明确 提出 ， 请 读者 阅读 时 谨慎 参考 。 


6.2.3 ”链接 分 析 算 法 之 间 的 关系 


到 目前 为 止 ， 学 术 界 已 经 提出 了 很 多 链接 分 析 算法 ， 图 6-7 列 出 了 
其 中 影响 力 较 大 的 一 些 算 法 及 其 相互 关系 ， 图 中 不 同 算法 之 间 的 箭头 
连接 代表 算法 之 间 的 改进 关系 ， 比 如 SALSA 算 法 即 融合 了 PageRank 和 
HITS 算 法 的 基本 思路 。 其 他 算法 所 代表 的 关系 与 此 类 似 ， 可 在 图 中 明 
显 看 出 算法 间 的 传承 关系 。 


主题 敏感 
= | [e 


BFS 算 法 


PHITS 


SALSA 算 法 


图 6-7 链接 分 析 算 法 关系 图 


尽管 链接 算法 很 多 ,但 是 从 其 概念 模型 来 说 ， 基 本 遵循 上 述 小 节 
介绍 的 随机 游 走 模型 和 子 集 传播 模型 。 而 从 图 中 可 看 出 ， 在 众多 算法 
中 ，PageRank 和 HITS 算 法 可 以 说 是 最 重要 的 两 个 具有 代表 性 的 链接 分 
析 算 法 ， 后 续 的 很 多 链接 分 析 算 法 都 是 在 这 两 个 算法 基础 上 衍生 出 来 
的 改进 算法 。 

在 本 章 后 续 章节 中 ， 将 详细 介绍 PageRank 算 法 、HITS 算 法 、 
SALSA 算 法 、 主 题 敏 感 PageRank 算 法 和 Hilltop 算 法 。 这 些 算法 大 都 已 
被 不 同 的 商业 搜索 引擎 所 采用 ， 在 实际 生活 中 发 挥 了 很 重要 的 作用 。 
对 于 图 6-7 所 列 出 的 其 他 链接 分 析 算 法 ， 将 在 本 章 末 尾 简 述 其 原理 。 


6.3 PageRank 算法 


PageRank 是 Google 创 始 人 于 1997 年 构建 早期 的 搜索 系统 原型 时 提 
出 的 链接 分 析 算 法 (参见 图 6-8) ， 上 自从 Google 在 商业 上 获得 空前 的 成 
功 后 ， 该 算法 也 成 为 其 他 搜索 引 警 和 学 术 界 十 分 关注 的 计算 模型 。 目 
前 很 多 重要 的 链接 分 析 算 法 都 是 在 PageRank 算 法 基础 上 衍生 出 来 的 。 


Google 


PageRank 


图 6-8 Google 提出 的 PageRank 算 法 
6.3.1 ”从 入 链 数 量 到 PageRank 


在 PageRank 提 出 之 前 ， 已 经 有 研究 着 提出 利用 网 页 的 入 链 数 量 来 
进行 链接 分 析 计 算 ， 这 种 入 链 方法 假设 一 个 网 页 的 入 链 越 多 ， 则 该 网 
页 越 重要 。 早 期 的 很 多 搜索 引擎 也 采纳 了 入 链 数 量 作 为 链接 分 析 方 
法 ， 对 于 搜索 引擎 效果 所 升 也 有 较 明 显 的 效果 。 

PageRank 除 了 考虑 到 入 链 数 量 的 影响 ， 还 参考 了 网 页 质量 因素 ， 
两 者 相 结合 获得 了 更 好 的 网 页 重要 性 评价 标准 。 

对 于 某 个 互联 网 网 页 A 来 说 ， 该 网 页 PageRank 的 计算 基于 以 下 两 个 
基本 假设 : 

* 数量 假设 在 Web 图 模型 中 ， 如 果 一 个 页 面 节点 接收 到 的 其 他 
网 页 指向 的 入 链 数 量 越 多 ， 那 么 这 个 页 面 越 重 要 。 

* 质量 假设 指向 页 面 A 的 入 链 质 量 不 同 ， 质 量 高 的 页 面 会 通过 
链接 问 其 他 页 面 传递 更 多 的 权重 。 所 以 越 是 质量 高 的 页 面 指向 页 面 A， 
则 页 面 A 越 重要 。 

通过 利用 以 上 两 个 假设 ，PageRank 算 法 刚 开 始 赋予 每 个 网 页 相同 
的 重要 性 得 分 ， 通 过 迭代 递归 计算 来 更 痢 每 个 页 面世 点 的 PageRank 得 


分 ， 直 到 得 分 稳定 为 止 。 

PageRank 计 算得 出 的 结 来 是 网 页 的 重要 性 评价 ， 这 和 用 户 输入 的 
查询 是 没有 任何 关系 的 ， 即 算法 是 主题 无 关 的 。 假 设 有 一 个 搜索 引 
擎 ， 其 相似 度 计算 函数 不 考虑 内 容 相似 因素 ， 完 全 采用 PageRank 来 进 
行 排序 ， 那 么 这 个 搜索 引擎 的 表现 是 什么 样子 的 呢 ? 这 个 搜索 引擎 对 
返回 的 结 采 都 征 相 同 的 ， 即 返回 PageRank 值 
Bx ray AY UI HJ o 


6.3.2 ”PageRank 计算 


丁 探讨 PageRank 的 具体 计算 过 程 。PageRank 的 计算 充分 利用 了 
上 市 提 到 的 两 个 假设 数量 假设 和 质量 假设 。 网 页 通过 链接 关系 构建 
起 Web 图 ， 在 初始 阶段 ， 每 个 页 面 设置 相同 的 PageRank 值 ， 通 过 若干 轮 
的 计算 ， 会 得 到 每 个 页 面 所 获得 的 最 终 PageRank 值 。 随 着 每 一 轮 的 计 
算 进 行 ， 网 页 当前 的 PageRank 值 会 不 断 得 到 更 新 。 

在 一 轮 更 新 页 面 PageRank 得 分 的 计算 中 ， 每 个 页 面 将 其 当前 的 
PageRank 值 平均 分 配 到 本 页 面包 含 的 出 链 上 ， 这 样 每 个 链接 即 获得 了 
相应 的 权 值 。 而 每 个 页 面 将 所 有 指 同 本 页 面 的 入 链 所 传 入 的 权 值 求 
和 ， 即 可 得 到 新 的 PageRank 得 分 。 当 每 个 页 面 都 获得 了 更 新 后 的 
PageRank 值 ， 就 完成 了 一 轮 PageRank 计 算 。 

下 面 以 如 图 6-9 所 示 的 例子 来 说 明 PageRank 的 具体 计算 过 程 。 图 中 
包含 7 个 页 面 ， 其 页 面 编 号 分 别 从 1 到 7， 页 面 之 间 的 链接 关系 如 图 所 
示 。 这 里 要 注意 的 一 点 是 :如 图 6-9 所 示 的 情况 已 是 经 过 若干 轮 计算 之 
后 的 情形 ， 每 个 页 面 已 经 获得 了 当前 的 PageRank 分 值 ， 比 如 页 面 1 当前 
的 PageRank 分 值 为 0.304， 页 面 2 当 前 的 PageRank 分 值 为 0.166， 其 他 页 
面 的 对 应 PageRank 数 值 也 在 图 中 标 出 。 我 们 接 下 来 看 看 从 当前 的 状态 
出 发 ， 如 何 进行 下 一 轮 的 PageRank 计 算 。 


Al6-9 PageRank 计算 实例 


在 PageRank 计 算 中 ， 从 页 面 A 指 同 页面 B 的 某 个 链接 的 权 值 ， 代 表 
了 从 页 面 A 传 导 到 页 面 B 的 PageRank 分 值 。 而 对 于 页 面 A 来 说 ， 如 果 有 
多 个 出 链 ， 那 么 页 面 A 本 身 的 PageRank 分 值 会 均等 地 分 配给 每 个 链接 。 
比如 图 6-9 中 的 页 面 4， 其 当前 PageRank 分 值 为 0.105， 包 含 3 个 出 链 ， 分 
别 指 回 页 面 2、 页 面 3 和 页 面 5， 所 以 每 个 出 链 获 得 的 分 值 为 0.035。 图 6- 
9 中 其 他 链接 的 权 值 也 与 页 面 4 的 出 链 一 样 ， 通 过 类 似 计算 可 以 得 到 。 

获得 了 每 个 链接 传导 的 权 值 后 ， 即 可 进行 新 一 轮 的 PageRank 计 
算 。 要 想得到 各 个 页 面世 点 的 得 分 ， 只 需 将 网 页 入 链 所 传 入 的 分 值 汇 
总 即 可 。 比 如 图 6-9 中 的 页 面 1， 有 4 个 入 链 ， 分 别 来 自 于 页 面 2、3、5、 
6。 每 个 链接 传导 的 权 值 也 如 图 上 所 标 ， 那 么 页 面 1 的 新 的 PageRank 值 
为 4 个 入 链 传 入 的 权 值 之 和 ， 即 : 

PR (1) =0.166+0.071+0.045+0.023 =0.305 

即 得 分 从 上 一 轮 的 0.304 更 新 到 0.305 。 

其 他 页 面 节 点 也 依次 如 此 计算 ， 以 获得 新 的 PageRank 分 值 ， 当 所 
有 页 面市 点 的 分 值得 到 更 新 ， 就 完成 了 一 轮 PageRank 计 算 。 如 果 在 新 


的 一 轮 PageRank 计 算 之 后 ， 发 现 总 体 而 言 ， 页 面世 点 的 PageRank 值 基 
本 稳定 ， 不 再 发 生 较 大 变化 ， 即 可 结束 PageRank 的 计算 ， 以 此 时 得 到 
的 得 分 ， 作 为 最 后 排序 时 可 以 利用 的 PageRank 得 分 。 


6.3.3 ”链接 陷阱 (Link Sink) 与 远程 跳 转 (Teleporting ) 


互联 网 页 面 之 间 的 链接 结构 实际 上 很 复杂 ， 上 一 小 市 介绍 了 
PageRank 的 计算 过 程 ， 但 是 对 于 某 些 特 殊 的 链接 结构 ， 按 照 上 述 方 法 
一 个 典型 的 例子 就 是 “链接 陷阱 ” (参见 图 6- 
10) ° 


图 6-10 链接 陷阱 


图 6-10 包 含 了 3 个 了 网页， 相互 有 链接 指 同 ， 形 成 了 一 个 环形 结构 © 
这 种 结构 类 似 于 天 体 中 的 黑洞 ， 在 计算 PageRank 的 时 候 ， 该 结构 将 导 
致 系统 只 会 吸收 传 入 的 分 值 ， 而 不 能 将 获得 的 分 值 传播 出 去 ， 随 着 
PageRank 一 轮 轮 地 连续 运算 ， 链 接 陷 阱 内 的 页 面 PageRank 得 分 越 来 越 
高 ， 这 与 PageRank 的 设计 初 袁 相 违背 。 

远程 跳 转 是 解决 链接 陷阱 的 通用 方式 ， 所 谓 的 远程 跳 转 ， 即 在 网 
页 癌 外 传递 分 值 的 时 候 ， 不 限于 同 出 链 所 指 网 页 传递 ， 也 可 以 以 一 定 
的 概率 癌 任意 其 他 网 页 跳 转 。 对 于 链接 陷阱 内 的 网 页 来 说 ， 增 加 了 远 
程 跳 转 措 施 后 ， 就 像 为 每 个 页 面 增加 了 指向 互联 网 任意 其 他 页 面 的 虚 
og ee eee 以 此 来 避免 链接 陷阱 导致 
和 问题。 


6.4 HITS 算 法 (Hypertext Induced Topic Selection) 


HITS 算 法 也 是 链接 分 析 中 非常 基础 且 重 要 的 算法 ， 目 前 已 被 
Teoma 搜 索引 警 (www.teoma.com) 作为 链接 分 析 算 法 在 实际 中 使 用 。 


6.4.1 Hub H M5 Authority H É 


Hub 页 面 和 Authority 页面 是 HITS 算 法 最 基本 的 两 个 定义 。 上 所 谓 
Authority 页 面 ， 是 指 与 某 个 领域 或 者 某 个 话题 相关 的 高 质量 网 页 。 比 
如 搜索 引擎 领域 ，Google 和 百度 首页 即 该 领域 的 高 质量 网 页 ; 比如 视 
频 领 域 ， 优 酷 和 土豆 首页 即 该 领域 的 高 质量 网 页 。 所 谓 的 Hub 页 面 ， 指 
的 是 包含 了 很 多 指向 高 质量 Authority 页 面 链 接 的 网 页 ， 比 如 hao123 首 页 
可 以 认为 是 一 个 典型 的 高 质量 Hub 网 页 。 

图 6-11 给 出 了 一 个 Hub 页 面 实例 ， 这 个 网 页 是 斯 坦 福 大 学 计算 语言 
学 研究 组 维护 的 页 面 ， 这 个 网 页 收集 了 与 统计 自然 语言 处 理 相关 的 高 
质量 资源 ， 包 括 一 些 著 名 的 开源 软件 包 及 语料库 等 ， 并 通过 链接 的 方 
式 指 同 这 些 资 源 页 面 。 这 个 页 面 可 以 认为 是 “自然 语言 处 理 ” 这 个 领域 
的 Hub 页 面 ， 相 应 地 ， 被 这 个 页 面 指向 的 资源 页 面 ， 大 部 分 是 高 质量 的 
Authority H H] ° 
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Machine Translation systems 
图 6-11 自然 语言 处 理 领域 的 Hub 页 面 
HITS 算 法 的 目的 是 通过 一 定 的 技术 手段 ， 在 海量 网 页 中 找到 与 用 
户 查 询 主题 相关 的 高 质量 Authority 页 面 和 和 Hub 页面 ， 尤 其 是 Authority 页 
面 ， 因 为 这 些 页 面 代表 了 能 够 满足 用 户 查询 的 高 质量 内 容 ， 搜 索引 擎 
以 此 作为 搜索 结果 返回 给 用 户 。 


6.4.2 ”相互 增强 关系 


很 多 算法 都 是 建立 在 一 些 假设 之 上 的 ，HITS 算 法 也 不 例外 。HITS 
算法 隐 含 并 利用 了 两 个 基本 假设 : 
基本 假设 1: 一 个 好 的 Authority 页 面 会 被 很 多 好 的 Hub 页面 指 


向 。 

- 基本 假设 2: 一 个 好 的 Hub 页 面 会 多 好 的 Authority 页 面 。 

到 目前 为 止 ， 无 论 是 从 Hub 页 面 或 者 Authority 页 面 的 定义 也 好 ， 还 
是 从 两 个 基本 假设 也 好 ， 都 能 看 到 一 个 模糊 的 描述 ， 即 “高 质量 ”或 
者 “好 的 >”， 那 么 什么 是 “好 的 ”Hub 页 面 ? 什么 是 “好 的 ”Authority 页 面 ? 
两 个 基本 假设 给 出 了 所 请 “好 ”的 定义 。 

基本 假设 1 说 明了 什么 是 “好 的 ”Authority 页 面 ， 即 被 很 多 好 的 Hub 
页 面 指 同 的 页 面 是 好 的 Authority 页 面 ， 这 里 两 个 修饰 语 非 常 重要 : “很 
多 ”和 “好 的 >?， 所 谓 “ 很 多 ”， 即 被 越 多 的 Hub 页 面 指 癌 越 好 ， 所 谓 “ 好 
的 "， 意 味 着 指 癌 该 页 面 的 Hub 页 面 质量 越 高 ， 则 页 面 越 好 。 这 综合 了 
指 回 本 页 面 的 所 有 Hub 世 点 的 数量 和 质量 因 隶 。 

基本 假设 2 则 给 出 了 什么 是 “好 的 "Hub 页 面 的 说 明 ， 即 指向 很 多 好 
的 Authority 页 面 的 网 页 是 好 的 Hub 页 面 。 同 样 地 , “很 多 ”和 “好 的 ”两 个 
修饰 语 很 重要 ， 所 谓 “ 很 多 *， 即 指向 的 Authority 页 面 数 量 越 多 越 好 ， 所 
谓 “ 好 的 "， 即 指 癌 的 Authority 页 面 质量 越 高 ， 则 该 页 面 越 是 好 的 Hub 页 
面 。 这 也 绽 合 考虑 了 该 页 面 有 链接 指 同 的 所 有 页 面 的 数量 和 质量 因 


7IN 


从 以 上 两 个 基本 假设 可 以 推导 出 Hub 页 面 和 Authority 页 面 之 间 的 相 
互 增强 关系 (参考 图 6-12) ， 即 某 个 网 页 的 Hub 质 量 越 高 ， 则 其 链接 指 
回 的 页 面 的 Authority 质 量 越 好 ; 反 过 来 也 是 如 此 ， 一 个 网 页 的 Authority 
质量 越 高 ， 则 那些 有 链接 指向 本 网 页 的 页 面 Hub 质 量 越 高 。 通 过 这 种 相 
互 增强 关系 不 断 迭 代 计 算 ， 即 可 找 出 哪些 页 面 是 高 质量 的 Hub 页 面 ， 哪 
些 页 面 是 高 质量 的 Authority 页 面 。 


Hub Authority 
图 6-12 ”相互 增强 关系 
6.4.3 ” HITS 算法 


HITS 算 法 与 PageRank 算 法 一 个 显著 的 差异 是 : HITS 算 法 与 用 户 输 
入 的 查询 请 求 密切 相关 ， 而 PageRank 算 法 是 与 查询 无 关 的 全 局 算法 。 
HITS 后 续 计 算 步 又 都 是 在 接收 到 用 户 查 询 后 展开 的 ， 即 是 与 查询 相关 
的 链接 分 析 算 法 。 

HITS 算 法 接收 到 了 用 户 查 询 之 后 ， 将 查询 提交 给 某 个 现 有 的 搜索 
引擎 (或 者 是 自己 构造 的 检索 系统 ， 并 在 返回 的 搜索 结果 中 ， 提 取 
排名 靠 前 的 网 页 ， 得 到 一 组 与 用 户 查 询 高 度 相 关 的 初始 网 页 集合 ， 这 
个 集合 被 称 做 根 集 (Root Set) ° 

在 根 集 的 基础 上 ，HITS 算 法 对 网 页 集合 进行 扩充 (参考 图 6- 
13) ， 扩 充 原 则 是 : 凡是 与 根 集 内 网 页 有 直接 链接 指向 关系 的 网 页 都 
被 扩充 进来 ， 无 论 是 有 链接 指向 根 集 内 页 面 也 好 ， 或 者 是 根 集 页 面 有 
链接 指 回 的 页 面 也 好 ， 都 被 扩充 进入 扩展 网 页 集合 。HITS 算 法 在 这 个 
扩展 网 页 集合 内 寻找 好 的 Hub 页 面 与 好 的 Authority 页 面 。 


图 6-13 ” 根 集 与 扩展 网 页 集合 
对 于 扩展 网 页 集合 来 说 ， 我 们 并 不 知道 哪些 页 面 是 好 的 Hub 页 面 或 


者 好 的 Authority 页 面 ， 每 个 网 页 都 有 潜在 的 可 能 ， 所 以 对 于 每 个 页 面 
都 设立 两 个 权 值 ， 分 别 来 记载 这 个 页 面 是 好 的 Hub 页 面 或 者 Authority 页 
面 的 可 能 性 。 在 初始 情况 下 ， 在 没有 更 多 可 利用 信息 前 ， 每 个 页 面 的 
这 两 个 权 值 都 是 相同 的 ， 可 以 都 设置 为 1。 

之 后 ， 即 可 利用 上 面 提 到 的 两 个 基本 假设 ， 以 及 相互 增强 关系 等 
原则 进行 多 轮 欠 代 计算 ， 每 轮 和 迭 代 计 算 更 新 每 个 页 面 的 两 个 权 值 ， 直 
到 权 值 稳定 不 再 发 生 明 显 的 变化 为 止 。 

图 6-14 给 出 了 迭代 计算 过 程 中 ， 某 个 页 面 的 Hub 权 值 和 Authority 权 
值 的 更 新 方式 。 假 设 以 A (i) 代表 网 页 的 Authority 权 值 ， 以 H (i) 代 
表 网 页 的 Hub 权 值 。 在 如 图 6-14 所 示 的 例子 中 ， 扩 展 网 页 集合 有 3 个 网 
页 有 链接 指向 页 面 1， 同 时 页 面 1 有 3 个 链接 指向 其 他 页 面 。 那 么 ， 网 页 
1 在 此 轮 适 代 中 的 Authority 权 值 即 为 所 有 指 同 网 页 1 页 面 的 Hub 权 值 之 
类 似 地 ， 网 页 1 的 Hub 分 值 即 为 所 指 辣 的 页 面 的 Authority 权 值 之 

ie 


Hub Authority Hub Authority 


A(1)=H(2)+H(3)+H(4) H(1) =A(5)+A(6)+A(7) 


图 6-14 Hub 与 Authority 权 值 计算 


扩展 网 页 集合 内 其 他 页 面 也 以 类 似 的 方式 对 两 个 权 值 进行 更 新 ， 
当 每 个 页 面 的 权 值 都 获得 了 更 新 ， 则 完成 了 一 轮 欠 代 计算 ， 此 时 HITS 
算法 会 评估 上 一 轮 欠 代 计算 中 的 权 值 和 本 轮 欠 代 之 后 权 值 的 差异 ， 如 
果 发 现 总 体 来 说 权 值 没有 明显 变化 ， 说 明 系 统 已 进入 稳定 状态 ， 则 可 
以 结束 计算 。 将 页 面 根据 Authority 权 值得 分 由 高 到 低 排序 ， 取 权 值 最 
高 的 若干 页 面 作为 响应 用 户 查 询 的 搜索 结果 和 输出。 如果 比 较 发 现 两 轮 
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6.4.4 _ HITS 算法 存在 的 问题 


HITS 算 法 整体 而 言 是 个 效果 很 好 的 算法 ， 目 前 不 仅 在 搜索 引擎 领 
域 应 用 ， 而 且 被 自然 语言 处 理 及 社交 分 析 等 很 多 其 他 计算 机 领域 借鉴 
使 用 ， 并 取得 了 很 好 的 应 用 效果 。 尽 管 如 此 ， 最 初版 本 的 HITS 算 法 仍 
然 存 在 一 些 问题 ， 而 后 续 很 多 基于 HITS 算 法 的 链接 分 析 方法 ， 也 是 立 
足 于 改进 HITS 算 法 存在 的 这 些 问题 而 提出 的 。 

归纳 起 来 ，HITS 算 法 主要 在 以 下 几 个 方面 存在 不 足 。 


计算 效率 较 低 


因为 HITS 算 法 息 与 查询 相关 的 算法 ， 所 以 必须 在 接收 到 用 户 碍 询 
后 实时 进行 计算 ， 而 HITS 算 法 本 喘 需 要 进行 很 多 轮 迭 代 计 算 才 能 获得 
最 终结 有 末 ， 这 导致 其 计算 效率 较 低 ， 这 有 征 实际 应 用 时 必须 慎重 考虑 的 


问题 。 
主题 漂移 问题 


如 有 果 在 扩展 网 页 集合 里 包含 部 分 与 查询 主题 无 关 的 页 面 ， 而 且 这 
些 页 面 之 间 有 较 多 的 相互 链接 指向 ， 那 么 使 用 HITS 算 法 很 可 能 会 给 予 
这 些 无 关 网 页 很 高 的 排名 ， 导 致 搜索 结果 发 生 主 题 漂 移 ， 这 种 现象 被 
称 为 紧密 链接 社区 现象 (Tightly-Knit Community Effect) 


易 被 作 兹 者 操纵 结 采 


HITS 算 法 从 机 制 上 很 容易 被 作 整 者 操纵 ， 比 如 作弊 者 可 以 建立 一 
个 网 页 ， 页 面 内 容 增加 很 多 指向 高 质量 网 页 或 者 著名 网 站 的 网 址 ， 这 
就 是 一 个 很 好 的 Hub 页 面 ， 之 后 作 数 者 再 将 这 个 网 页 链接 指向 作弊 网 
页 ， 于 是 可 以 提升 作弊 网 页 的 Authority 得 分 。 


结构 不 稳定 


所 谓 结构 不 稳定 ， 束 是 说 在 原 有 的 扩展 网 页 集合 内 ， 如 采 添 加 删 
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6.4.5 HITS 算 法 与 PageRank 算 法 比较 


HITS 算 法 和 PageRank 算 法 可 以 说 是 搜索 引擎 链接 分 析 的 两 个 最 基 
础 且 最 重要 的 算法 。 从 以 上 对 两 个 算法 的 介绍 可 以 看 出 ， 两 者 无 论 是 
在 基本 概念 模型 ， 还 是 计算 思路 及 技术 实现 细节 都 有 很 大 的 不 同 ， 下 
面 对 两 者 之 间 的 差异 进行 逐一 说 明 。 

HITS 算 法 是 与 用 户 输入 的 查询 请 求 密切 相关 的 ， 而 PageRank 与 
查询 请 求 无 天。 所 以 ，HITS 算 法 可 以 单独 作为 相似 性 计算 评价 标准 ， 
而 PageRank 必 须 结合 内 容 相似 性 计算 才 可 以 用 来 对 网 页 相关 性 进行 评 
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HITS 算 法 因为 与 用 户 查询 密切 相关 ， 所 以 必须 在 接收 到 用 户 得 
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成 后 离线 计算 ， 在 线 直接 使 用 计算 结果 ， 计 算 效 率 较 高 。 
HITS 算 法 的 计算 对 象 数量 较 少 ， 只 需 计 算 扩 展 集合 内 网 页 之 间 
而 PageRank 是 全 局 性 算法 ， 对 所 有 互联 网 页 面 节 点 进行 
理 。 
从 两 者 的 计算 效率 和 处 理 对 象 集合 大 小 来 比较 ，PageRank 更 适 
合 部 署 在 服务 器 端 ， 而 HITS 算 法 更 适合 部 署 在 客户 端 。 
HITS 算 法 存在 主题 泛 化 问题 ， 所 以 更 适合 处 理 具 体 的 用 户 碍 
询 ， 而 PageRank 算 法 在 处 理 宽 泛 的 用 户 碍 询 时 更 有 优势 。 
HITS 算 法 在 计算 时 ， 对 于 每 个 页 面 需要 计算 两 个 分 值 ， 而 
PageRank 算 法 只 需 计 算 一 个 分 值 即 可 ; 在 搜索 引擎 领域 ， 更 重视 HITS 
算法 计算 出 的 Authority 权 值 ， 但 是 在 很 多 应 用 HITS 算 法 的 其 他 领域 ， 
Hub 分 值 也 有 很 重要 的 作用 。 
从 链接 反 作 浆 的 角度 来 说 ，PageRank 从 机 制 上 优 于 HITS 算 法 ， 
而 HITS 算 法 更 易 遭 受 链接 作 浆 的 影响 。 
: HITS 算 法 结构 不 稳定 ， 当 对 扩展 网 页 集合 内 链接 关系 做 出 很 小 
改变 ， 则 对 最 终 排 名 有 很 大 影响 ， 而 PageRank 算 法 相对 HITS 而 言 表现 
稳定 ， 其 根本 原因 在 于 PageRank 计 算 时 的 远程 跳 转 。 


6.5 SALSA 算 法 


上 一 小 和 介绍 了 PageRank 算 法 和 HITS 算 法 之 间 的 异同 之 处 ， 
SALSA 算 法 的 初衷 硕 望 能 够 结合 两 者 的 主要 特点 ， 既 可 以 利用 HITS 算 
法 与 查询 相关 的 特点 ， 也 可 以 采纳 PageRank 的 随机 游 走 模 型 ， 这 是 
SALSA 算 法 提出 的 背景 。 由 此 可 见 ，SALSA 算 法 融合 了 PageRank 和 
HITS 算 法 的 基本 思想 ， 从 实际 效果 来 说 ， 很 多 实验 数据 表明 ，SALSA 
的 搜索 效果 也 都 优 于 前 两 个 算法 ， 是 目前 效果 最 好 的 链接 分 析 算 法 之 


从 整体 计算 流程 来 说 ， 可 以 将 SALSA 划 分 为 两 个 大 的 阶段 ， 首先 
征 确定 计算 对 象 集合 的 阶段 ， 这 一 阶段 与 HITS 算 法 基本 相同 ， 第 2 个 阶 
段 古 链接 关系 传播 过 程 ， 在 这 一 阶段 则 采纳 了 随机 游 走 模型 。 


6.5.1 ”确定 计算 对 象 集合 
PageRank 的 计算 对 象 是 互联 网 所 有 网 页 ，SALSA 算 法 与 此 不 同 ， 


在 本 阶段 ， 其 与 HITS 算 法 思路 大 致 相同 ， 也 是 先 得 到 扩展 网 页 集合 
之 后 将 网 页 关系 转换 为 方向 二 分 图 形式 。 


扩展 网 页 集合 


SALSA 算 法 在 接收 到 用 户 查 询 请 求 后 ， 利 用 现 有 搜索 引擎 或 者 检 
索 系 统 ， 获 得 一 批 与 用 户 查 询 在 内 容 上 高 度 相关 的 网 页 ， 以 此 作为 根 
集 。 并 在 此 基础 上 ， 将 与 根 集 内 网 页 有 直接 链接 关系 的 网 页 纳入 ， 形 
成 扩展 网 页 集合 (参考 图 6-15) 。 之 后 会 在 扩展 网 页 集合 内 根据 一 定 的 
链接 分 析 方 法 获得 最 终 搜 索 结 采 排名 。 


图 6-15 ”扩展 网 页 集合 示例 


转换 为 无 向 二 分 图 


在 获得 了 扩展 网 页 集合 之 后 ，SALSA 根 据 集合 内 的 网 页 链接 关 
系 ， 将 网 页 集合 转换 为 一 个 二 分 图 。 即 将 网 页 划分 到 两 个 子 集合 中 ， 
一 个 于 集合 是 Hub 集 合 ， 男 一 个 于 集合 是 Authority 集 合 。 划 分 网 页 市 点 
属于 哪个 集合 ， 则 根据 如 下 规则 。 

如 采 一 个 网 页 包含 出 链 ， 这 些 出 链 指向 扩展 网 页 集合 内 其 他 市 
点 ， 则 这 个 网 页 可 被 归 和 Hub 集合 。 


”如 果 一 个 网 页 包含 扩展 网 页 集合 内 其 他 市 点 指向 的 入 链 ， 则 可 
被 归 入 Authority 集 合 。 

由 以 上 规则 可 以 看 出 ， 如 果 某 个 网 页 同时 包含 入 链 和 出 链 ， 则 可 
以 同时 归 入 两 个 集合 。 同 时 ，Hub 集 合 内 网 页 的 出 链 组 成 了 二 分 图 内 的 
边 ， 根 据 以 上 法 则 ， 将 扩展 网 页 集合 转换 为 二 分 图 。 

图 6-15 和 图 6-16 给 出 了 一 个 示例 ， 说 明了 这 个 转换 过 程 。 假 设 扩展 
网 页 集合 如 图 6-15 所 示 ， 由 6 个 网 页 构成 ， 其 链接 关系 如 图 所 示 ， 同 时 
为 了 便于 说 明 ， 每 个 网 页 给 予 一 个 唯一 编号 。 图 6-16 则 是 将 图 6-15 中 的 
网 页 集合 转换 为 二 分 图 的 结果 。 以 网 页 6 为 例 ， 因 为 其 有 出 链 指向 网 页 
节点 3 和 网 页 节点 5， 所 以 可 以 放 入 Hub 和 集合 ， 也 因为 编号 为 1、3、10 的 
网 页 节点 有 链接 指向 网 页 节点 6， 所 以 也 可 以 放 入 Authority 集 合 中 。 网 
页 节点 6 的 两 个 出 链 保留 ， 作 为 二 分 图 的 边 ， 但 是 这 里 需要 注意 的 是 ， 
在 转换 为 二 分 图 后 ， 原 先 的 有 癌 边 不 再 保留 方 同 ， 转 换 为 无 同 边 ， 而 
HITS 算 法 仍然 保留 为 有 辐 边 ， 这 点 与 SALSA 略 有 不 同 。 


Hub Authority 


图 6-16 ”二 分 图 


到 这 一 步骤 为 止 ， 除 了 SALSA 算 法 将 扩展 网 页 集合 转换 为 无 癌 二 
分 图 ， 而 HITS 仍 然 是 有 辐 二 分 图 外 ， 其 他 步骤 和 流程 ，SALSA 算 法 与 
a aes 
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6.5.2 ”链接 关系 传播 


在 链接 关系 传播 阶段 ，SALSA 算 法 放弃 了 HITS 算 法 的 Hub 世 点 和 
Authority 世 点 相互 增强 的 假设 ， 转 而 采纳 PageRank 的 随机 游 走 模 型 。 


链接 关系 传播 概念 模型 


如 图 6-16 所 示 ， 假 设 存在 某 个 浏览 者 ， 从 某 个 子 集合 中 随机 选择 一 
个 节点 出 发 (为 方便 说 明 ， 图 中 所 示 为 从 Hub 子 集合 的 节点 1 出 发 ， 实 
际 计算 往往 是 从 Authority 子 集合 出 发 的 ) ， 如 果 节 点 包含 多 条 边 ， 则 
以 相等 概率 随机 选择 一 条 边 ， 从 Hub 子 集合 跳 到 Authority 集 合 内 节点 ， 
图 中 所 示 为 由 节点 1 转移 到 节点 3 之 后 从 Authority 子 集合 再 次 跳 回 Hub 子 
集合 ， 即 由 节点 3 跳 到 节点 6。 如 此 不 断 在 两 个 子 集 之 间 转 移 ， 形 成 了 
SALSA 目 身 的 链接 关系 传播 模式 。 

尽管 看 上 去 与 PageRank 的 链接 传播 模式 不 同 ， 但 其 实 两 者 是 一 样 
的 ， 关 键 点 在 于 : 其 从 某 个 节点 跳 到 另外 一 个 节点 的 时 候 ， 如 果 包 含 
多 个 可 供 选 择 的 链接 ， 则 以 等 概率 随机 选择 一 条 路 径 ， 即 在 权 值 传播 
过 程 中 ， 权 值 是 被 所 有 链接 平均 分 配 的 。 而 HITS 算 法 不 同 ，HITS 算 法 
属于 权 值 广播 模式 ， 即 将 节点 本 身 的 权 值 完全 传播 给 有 链接 指向 的 节 
点 ， 并 不 根据 链接 多 少 进行 分 配 。 

SALSA 的 上 述 权 值 传播 模型 与 HITS 模 型 关注 重点 不 同 ，HITS 模 型 
关注 的 是 Hub 和 Authority 之 间 的 节点 相互 增强 关系， 而 SALSA 实 际 上 关 
注 的 是 Hub-Hub 及 AuthorityAuthority 之 间 的 万 点 关系 ， 而 另 一 个 子 集合 
忆 点 只 是 充当 中 转 桥 梁 的 作用 。 所 以 ， 上 述 权 值 传播 模型 可 以 转化 为 
两 个 相似 的 子 模型 ， 即 Hub 节 点 关系 图 和 Authority 节 点 关系 图 。 


Authority 节 点 关系 图 
图 6-17 是 由 6-16 的 二 分 图 转化 成 的 Authority 世 点 关系 图 ，Hub 点 


关系 图 与 此 类 似 ， 两 者 转化 过 程 是 相似 的 ， 我 们 以 Authority 广 皮 天 系 
图 为 例 来 看 如 何 从 二 分 图 转化 为 节操 天 系 图 。 


图 6-17 Authority 节 点 关系 图 


这 里 需要 注意 的 是 : Authority 集 合 内 从 某 个 节点 ji 转 移 到 另 一 个 节 
点 j 的 概率 ， 与 从 节点 j 转 移 到 节点 的 概率 是 不 同 的 ， 即 非 对 称 的 ， 所 以 
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对 于 图 6-17 这 个 Authority 节 点 关系 图 来 说 ， 图 中 包含 的 节点 就 是 二 
分 图 中 属于 Authority 子 集合 的 节点 ， 关 键 在 于 节点 之 间 的 边 如 何 建 立 
及 市 点 之 间 转 移 概 率 如 何 计算 。 


节点 关系 图 中 边 的 建立 


之 所 以 在 Authority 节 点 图 中 ， 方 点 3 有 边 指向 广 点 5， 是 因为 在 二 
分 图 中 ， 由 廊 点 3 通过 Hub 子 集合 的 节点 6 中 转 ， 可 以 通达 节点 5， 所 以 
两 者 之 间 有 边 建立 。 

这 里 需要 注意 的 是 : 在 二 分 图 中 ， 对 于 Authority 集 合 内 的 某 个 市 
点 来 说 ， 一 定 可 以 通过 Hub 子 集合 的 和 点 中 转 后 再 次 返回 本 身 ， 所 以 一 
定 包 含 一 条 指 癌 自身 的 有 问 边 。 节 点 1 因为 只 有 中 转 节 点 2 使 得 其 返回 
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节点 没有 边 联系 ， 所 以 例子 中 的 Authority 节 点 关系 图 由 两 个 连通 子 图 
构成 ， 一 个 只 有 六 点 1， 男 外 一 个 连通 于 图 由 剩余 儿 个 节点 构成 。 


节 扣 之 间 的 转移 概率 


至 于 为 何 Authority 广 点 关系 图 中 ， 节 点 3 到 市 点 5 的 转移 概率 为 
0.25， 是 因为 前 面 介绍 过 ，SALSA 的 权 值 传播 模型 遵循 随机 游 走 模 
型 。 在 图 6-16 的 二 分 图 中 ， 从 节点 3 转移 到 节点 5 的 过 程 中 ， 节 点 3 有 两 
条 边 可 做 选择 来 跳 转 到 Hub 子 集合 ， 所 以 每 条 边 的 选择 概率 为 12， 可 
以 选择 其 中 一 条 边 到 达 节 点 6， 同 样 ， 从 节点 6 跳 回 到 Authority 子 集合 
时 ， 下 点 6 也 有 两 条 边 可 选 ， 选 中 每 条 边 的 概率 为 2。 所 以 从 节点 3 出 
发 ， 经 由 节点 6 跳 转 到 节点 5 的 概率 为 两 条 边 权 值 的 乘积 ， 即 为 4。 

对 于 指向 自身 的 有 向 边 ， 其 权重 计算 过 程 是 类 似 的 ， 我 们 仍然 以 
节点 3 为 例 ， 指 癌 自 身 的 有 问 边 代 表 从 Authority 子 集合 中 的 节点 3 出 
发 ， 经 由 Hub 子 集合 的 节点 再 次 返回 和 点 3 的 概率 。 从 图 6-16 的 二 分 图 
可 以 看 出 ， 完 成 这 个 过 程 有 两 条 路 径 可 走 ， 一 条 是 从 万 点 3 到 节点 1 返 
回 ; 另外 一 条 是 从 节点 3 经 由 节点 6 后 返回 ; 每 一 条 路 径 的 概率 与 上 面 
所 述 计算 方法 一 样 ， 因 为 两 条 路 径 各 目的 概率 为 0.25， 所 以 节点 3 返回 
自身 的 概率 为 两 条 路 径 概率 之 和 ， 即 为 0.5。 图 中 其 他 边 的 转移 概率 计 
个 方式 也 是 类 此 

建立 好 Authority 节 点 关系 图 后 ， 即 可 在 图 上 利用 随机 游 走 模型 来 
计算 每 个 万 点 的 Authority 权 值 。 在 实际 计算 过 程 中 ，SALSA 将 搜索 结 
果 排 序 问题 进一步 转换 为 求 Authority 节 点 矩阵 的 主 秩 问 题 ， 和 矩阵 的 主 
秩 即 为 每 个 节点 的 相应 Authority 得 分 ， 按 照 Authority 得 分 由 高 到 低 排 
列 ， 即 可 得 到 最 终 的 搜索 排序 结果 。 


6.5.3 ”Authority 权 值 计 算 


经 过 数学 推导 ， 可 以 得 出 SALSA 与 求 矩 阵 主 秩 等 价 的 Authority 权 
值 计 算 公 式 。 图 6-18 中 的 示意 图 表明 了 SALSA 算 法 中 某 个 网 页 市 点 的 
Authority 权 值 是 如 何 计算 的 。 如 图 右上 角 公 式 所 示 ， 决 定 某 个 网 页 的 
Authority 权 值 涉及 4 个 因子 。 
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图 6-18 SALSA 节 点 权 值 计 算 公式 
Authority 子 集合 中 包含 的 节点 总 数 |A| 。 其 实 这 个 因子 对 于 
Authority 集 合 中 任意 市 点 来 说 都 是 相同 的 ， 所 以 对 于 最 终 的 根据 节操 
Authority 权 值 进 行 的 排序 没有 影响 ， 只 是 起 到 保证 权 值 得 分 在 0 到 1 之 
间 ， 能 够 以 概率 形式 表示 权 值 的 作用 。 
网 页 i 所 在 连通 图 中 包含 的 节点 个 数 |A;|。 网 页 所 在 的 连通 图 包 
含 的 节点 个 数 越 多 ， 则 网 页 的 Authority 权 值 越 大 。 
网 页 i 所 在 连通 图 中 包含 的 入 链 总 数 |E |。 网 页 所 在 的 连通 图 包 
含 的 入 链 总 数 越 少 ， 则 网 页 的 Authority 权 值 越 大 。 
网 页 的 入 链 个 数 | Bi| 。 节 点 入 链 越 多 ， 则 Authority 权 值 越 大 ， 
这 个 因子 是 唯一 一 个 和 节点 本 里 属性 相关 的 。 由 此 可 见 ，SALSA 权 值 
计算 和 和 点 入 链 个 数 成 正比 。 
之 前 图 6-17 的 “Authority 广 点 天 系 图 ”由 两 个 连通 子 图 组 成 ， 一 个 由 
唯一 的 节点 1 构成 ， 男 外 一 个 由 市 点 3、5、6 3 个 节点 构成 ， 两 个 连通 
子 图 在 图 6-18 中 也 被 分 别 圈 出 。 


我 们 以 节点 3 为 例 ， 看 其 对 应 的 4 个 计算 因素 取 值 。 
Authority 子 集 共 包括 4 个 市 点 。 
节点 3 所 在 连通 图 包含 3 个 万 点 。 
万 点 3 所 在 连通 图 共有 6 个 入 链 。 
廊 点 3 的 入 链 个 数 为 2。 


所 以 节点 3 的 Authority 权 值 为 : (3/4) x (2/6) =0.25。 其 他 节 
点 权 值 的 计算 过 程 与 此 类 似 。SALSA 根 据 节点 的 Authority 权 值 由 高 到 
低 排 序 输出 ， 即 为 搜索 结果 。 

由 上 述 权 值 计 算 公 式 可 以 推出 : 如 果 整 个 Authority 子 集合 所 有 节 
点 形成 一 个 完整 的 连通 图 ， 那 么 在 计算 Authority 权 值 的 过 程 中 ， 对 于 
任意 两 个 节点 ，4 个 因子 中 除了 节点 入 链 个 数 外 ， 其 他 3 个 因子 总 是 相 
同 的 ， 即 只 有 入 链 个 数 起 作用 ， 此 时 ，SALSA 算 法 退化 为 根据 节点 入 
链 个 数 决 定 排序 顺序 的 算法 。 

从 SALSA 计 算 Authority 得 分 过 程 中 可 看 出 ，SALSA 算 法 不 需要 像 
HITS 算 法 一 样 进行 不 断 的 迭代 计算 ， 所 以 从 计算 效率 角度 看 要 快 于 
HITS 算 法 。 男 外 ，SALSA 算 法 解决 了 HITS 算 法 的 计算 结果 主题 漂移 问 
ag po eee SALSA 算 法 是 目前 效果 最 好 的 链 
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6.6 ”主题 敏感 PageRank (Topic Sensitive PageRank) 


主题 敏感 PageRank 是 PageRank 算 法 的 改进 版 本 ， 该 算法 已 被 
Google 使 用 在 个 性 化 搜索 服务 中 。 


6.6.1 ”主题 敏感 PageRank 与 PageRank 的 差异 


PageRank 算 法 基本 遵循 前 面 章 市 提 到 的 随机 游 走 模 型 ， 即 用 户 在 
浏 贤 茶 个 网 页 时 ， 如 果 布 望 跳 软 到 其 他 页 面 ， 则 随机 选择 本 网 页 包含 
的 某 个 链接 ， 进 入 另 一 个 页 面 。 主 题 敏 感 PageRank 则 对 该 概念 模型 做 
出 改进 ， 引 入 了 更 符合 现实 的 假设 。 一 般 来 说 用 户 会 对 某 些 领域 感 兴 
趣 ， 同 时 当 浏览 某 个 页 面 时 ， 这 个 页 面 也 是 与 某 个 主题 相关 的 (比如 
体育 报道 或 者 娱乐 新 闻 ) ， 所 以 当 用 户 看 完 当 前 页 面 ， 硕 望 跳 转 时 ， 
更 倾向 于 点 击 和 当前 页 面 主题 类 似 的 链接 ， 即 主题 敏感 pageRank 是 将 
用 户 兴趣 、 页 面 主题 及 链接 所 指向 网 页 与 当前 网 页 主题 的 相似 程度 综 
合 考虑 而 建立 的 模型 。 很 明显 ， 这 更 符合 真实 用 户 的 浏览 过 程 。 


PageRank 是 全 局 性 的 网 页 重要 性 衡量 标准 ， 每 个 网 页 会 根据 链接 
情况 ， 被 赋予 一 个 唯一 的 PageRank 分 值 。 主 题 敏感 PageRank 在 此 点 有 
所 不 同 ， 该 算法 引入 了 16 种 主题 类 型 ， 对 于 某 个 网 页 来 说 ， 对 应 某 个 
主题 类 型 都 有 相应 的 PageRank 分 值 ， 即 每 个 网 页 会 被 赋予 16 个 主题 相 
天 PageRank 分 值 。 

在 接收 到 用 户 查 询 后 ， 两 个 算法 在 处 理 方式 上 也 有 较 大 差异 。 
PageRank 算 法 与 查询 无 天 ， 只 能 作为 相似 度 计算 的 一 个 计算 因子 体现 
作用 ， 无 法 独立 使 用 。 而 主题 敏感 PageRank 是 查询 相关 的 ， 可 单独 作 
为 相似 度 计算 公式 使 用 。 而 且 ， 在 接收 到 用 户 查 询 后 ， 主 题 敏感 
PageRank 还 需要 利用 分 类 器 ， 计 算 该 查询 隶属 于 事先 定义 好 的 16 个 主 
题 的 隶属 度 ， 并 在 相似 度 计算 时 的 排序 公式 中 利用 此 信息 。 


6.6.2 ”主题 敏感 PageRank 计 算 流 程 


主题 敏感 PageRank 计 算 主 要 由 两 个 步骤 构成 ， 第 1 步 是 离线 的 分 类 
主题 PageRank 数 值 计 算 ; 第 2 步 是 在 线 利 用 算 好 的 主题 PageRank 分 值 ， 
来 评估 网 页 和 用 户 查询 的 相似 度 ， 以 按照 相似 度 排序 提供 给 用 户 搜索 
结果 。 下 面 以 具体 示例 来 了 解 主题 敏感 PageRank 的 计算 流程 。 


分 类 主题 PageRank 计 算 


主题 敏感 PageRank 参 考 ODP 网 站 (www.dmoz.org) ， 定 义 了 16 个 
大 的 主题 类 别 ， 包 括 体 育 、 丙 业 、 科 技 等 。ODP (Open Directory 
Project) 是 人 工整 理 的 多 层级 网 页 分 类 导航 站 点 (参见 图 6-19) ， 在 顶 
级 的 16 个 大 分 类 下 还 有 更 细致 的 小 粒度 分 类 结构 ， 在 最 底层 目录 下 ， 
人 工 收集 了 符合 该 目录 主题 的 精 选 高 质量 网 页 地 址 ， 以 供 互 联网 用 户 
导航 寻 址 。 主 题 敏感 PageRank 采 用 了 ODP 最 高 级 别 的 16 个 分 类 类 别 作 
为 事先 定义 的 主题 类 型 。 
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图 6-19 ODP 首页 


主题 敏感 PageRank 对 16 个 类 别 的 主题 ， 依 次 计算 该 类 别 的 
PageRank 分 值 ， 图 6-20 显 示 了 其 计算 流程 和 基本 思路 ， 为 了 简化 说 
明 ， 示 意图 只 表现 出 了 3 个 分 类 类 别 。 在 计算 某 个 类 别 的 PageRank 分 值 
上 时， 将 所 有 网 页 划分 为 两 个 集合 ， 一 个 集合 是 ODP 对 应 分 类 主题 下 所 
包括 的 所 有 网页， 即 人 工 精 选 的 高 质量 网 页 ， 可 以 称 之 为 集合 S， 剩 下 
的 网 页 放 入 另 一 个 集合 内 ， 可 称 之 为 集合 T。 在 计算 PageRank 时 ， 由 于 
集合 S 内 的 网 页 能 够 很 好 地 表征 分 类 主题 ， 所 以 赋予 较 大 的 跳 转 概率 
值 。 通 过 这 种 设 定 ， 集 合 S 内 的 网 页 根据 链接 关系 向 集合 T 中 网 页 传递 
权 值 ， 因 为 直接 有 链接 指向 的 往往 主题 类 似 ， 这 样 就 将 与 该 分 类 主题 
内 容 相似 的 网 页 赋予 较 高 的 PageRank 值 ， 而 无 关 的 网 页 则 赋予 较 低 权 
重 的 PageRank 分 值 ， 以 此 方式 达到 对 网 页 所 包含 主题 的 判断 。 


PRart (1)=0.5 


OD P 分 类 
体系 


图 6-20 ”网 页 的 分 类 主题 PageRank 计 算 


回 到 图 6-20， 假 设 有 个 编号 为 1 的 网 页 ， 其 被 列 到 ODP 目 录 中 的 忆 
术 类 别 中 ， 在 对 艺术 类 别 进行 PageRank 计 算 时 ，1 号 网 页 在 集合 S 内 ， 
计算 结束 后 ， 该 网 页 获得 的 PageRank 分 值 为 0.5。 当 计算 体育 和 商业 类 


别 的 主题 PageRank 分 值 时 ，1 号 网 页 在 集合 T 中 ， 获 得 了 相应 的 集合 S 中 
网 页 传递 的 权 值 ， 分 别 为 0.02 和 0.01。 在 所 有 类 别 计算 结束 后 ，1 号 网 
页 获得 了 3 个 不 同 主题 对 应 的 PageRank 分 值 ， 组 成 一 个 主题 PageRank 回 
量 。 通 过 类 似 的 方式 ， 互 联网 内 任意 网 页 也 可 以 获得 相应 的 主题 相关 
PageRank 问 量 。 通 过 以 上 过 程 可 以 看 出 ， 主 题 相 关 的 PageRank 分 值 回 
量 其 实 代 表 了 某 个 网 页 所 讲述 内 容 所 属 类 别 的 概率 。 

注意 : 在 上 述 计算 主题 PageRank 过 程 中 ， 从 集合 S 和 集合 IT 的 划分 及 其 权 值 传播 方式 中 可 
以 看 出 ， 该 步骤 计算 过 程 也 符合 子 集 传播 模型 。 但 是 由 于 本 算法 主 框架 及 其 出 发 点 都 是 为 了 改 
进 PageRank， 所 以 将 其 归 入 随机 游 走 模型 的 衍生 算法 类 别 中 。 


在 线 相似 度 计 算 


图 6-21 给 出 了 主题 敏感 PageRank 在 线 计算 用 户 查 询 与 网 页 相似 度 
的 示意 图 。 假 设 用 户 输入 了 查询 请 求 “ 乔 丹 "， 搜 索 系 统 首先 利用 用 户 
查询 分 类 器 对 查询 进行 分 类 ， 计 算 用 户 查 询 隶 属于 定义 好 的 各 个 类 别 
的 概率 分 别 是 多 少 ， 在 我 们 给 出 的 例子 里 , “乔丹 ?隶属 于 体育 类 别 的 
概率 为 0.6， 娱 乐 类 别 的 概率 为 0.1， 商 业 类 别 的 概率 为 0.3。 
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图 6-21 在 线 相似 度 计 算 


在 进行 上 述 用 户 查 询 分 类 计算 的 同时 ， 搜 索 系 统 读 取 索引 ， 找 出 
包含 了 用 户 查 询 “ 乔 丹 ” 的 所 有 网 页 ， 并 获得 上 一 步骤 离线 计算 好 的 各 
个 分 类 主题 的 PageRank 值 ， 在 图 6-21 的 例子 里 ， 假 设 某 个 网 页 A 的 各 个 
主题 PageRank 值 分 别 为 体育 0.2、 娱 乐 0.3 及 商业 0.1。 得 到 用 户 查询 的 类 
别 向 量 和 某 个 网 页 的 主题 PageRank 向 量 后 ， 即 可 计算 这 个 网 页 和 查询 
的 相似 度 。 通 过 计算 两 个 向 量 的 乘积 就 可 以 得 出 两 者 之 间 的 相关 性 。 
在 如 图 6-21 所 示 的 例子 里 ， 网 页 A 和 用 户 查 询 “ 乔 丹 ” 的 相似 度 为 : 

Sim (“乔丹 ”>，A) =0.6x0.2 十 0.1x0.3 十 0.3x0.1=0.18 

对 包含 “乔丹 ”这 个 关键 词 的 网 页 ， 都 根据 以 上 方法 计算 ， 得 出 其 
与 用 户 查 询 的 相似 度 后 ， 就 可 以 按照 相似 度 由 高 到 低 排 序 输出 ， 作 为 
本 次 搜索 的 搜索 结果 返回 给 用 户 。 


6.6.3 ”利用 主题 敏感 PageRank 构 造 个 性 化 搜索 


以 上 内 容 介 绍 的 是 主题 敏感 PageRank 的 基本 思想 和 计算 流程 ， 从 
其 内 在 机 制 来 说 ， 这 个 算法 非常 适合 作为 个 性 化 搜索 的 技术 方案 。 

在 如 图 6-21 所 示 的 例子 里 ， 计 算 相似 度 使 用 的 只 有 用 户 当 前 输入 的 
查询 词 * 乔 丹 ”， 如 果 能 够 对 此 进行 扩展 ， 即 不 仅 使 用 当前 查询 词 ， 也 
考虑 利用 用 户 过 去 的 搜索 记录 等 个 性 化 信息 。 比 如 用 户 之 前 搜索 过 “ 耐 
殉 ”， 则 可 以 推断 用 户 输入 “乔丹 ”是 想 购 买 运动 服饰 ， 而 如 有 果 之 前 搜索 
过 “姚明 *， 则 很 可 能 用 户 希 望 获得 体育 方面 的 信息 。 通 过 这 种 方式 ， 
可 以 将 用 户 的 个 性 化 信息 和 当前 查询 相 融 合 来 构造 搜索 系统 ， 以 此 达 
到 个 性 化 搜索 的 目的 ， 更 精准 地 提供 搜索 服务 。 


6.7 ”Hilltop 算 法 


Hilltop 算 法 是 Torono 大 学 研发 的 链接 分 析 算 法 ， 在 2003 年 被 Google 
公司 收购 ， 而 Google 在 之 后 的 排序 算法 大 改版 中 引入 了 Hilltop 算 法 。 

Hilltop 算 法 融合 了 HITS 和 PageRank 两 个 算法 的 基本 思想 。 一 方 
面 ，Hilltop 是 与 用 户 查 询 请 求 相关 的 链接 分 析 算 法 ， 吸 收 了 HITS 算 法 
根据 用 户 查 询 获 得 高 质量 相关 网 页 子 集 的 思想 ， 符 合子 集 传播 模型 ， 
是 该 模型 的 一 个 具体 实例 ， 同 时 ， 在 权 值 传播 过 程 中 ，Hilltop 算 法 也 采 
纳 了 PageRank 的 基本 指导 思想 ， 即 通过 页 面 入 链 的 数量 和 质量 来 确定 
搜索 结果 的 排序 权重 。 


6.7.1 ”Hilltop 算 法 的 一 些 基 本 定义 


非 从 属 组 织 页 面 (Non-affiliated Pages) 是 Hilltop 算 法 的 一 个 很 重 
要 的 定义 。 要 了 解 什 么 是 非 从 属 组 织 页 面 ， 先 要 搞 明 白 什么 是 从 属 组 
织 网 站 ， 所 请 的 从 属 组 织 网 站 ， 即 不 同 的 网 站 属于 同一 机 构 或 者 其 拥 
有 者 有 密切 关联 。 具 体 而 言 ， 满 足 如 下 任意 一 条 判断 规则 的 网 站 会 被 
认为 是 从 属 网 站 。 
条 件 1: 主机 IP 地 址 的 前 3 个 子 网 段 相同 ， 比 如 : IP 地 址 分 别 为 
159.226.138.127 和 159.226.138.234 的 两 个 网 站 会 被 认为 是 从 属 网 站 。 
条 件 2: 如 果 网 站 域名 中 的 主 域名 相同 ， 比 如 www.ibm.com 和 
www.ibm.com.cn 会 被 认为 是 从 属 组织 网 站 。 
非 从 属 组 织 页 面 的 含义 是 : 如 果 两 个 页 面 不 属于 从 属 网 站 ， 则 为 
非 从 属 组 织 页 面 。 图 6-22 是 相关 示意 图 ， 从 图 中 可 以 看 出 ， 页 面 2 和 页 
面 3 同 属于 IBM 的 网 页 ， 所 以 是 从 属 组 织 页 面 ， 而 页 面 1 和 页 面 5、 页 面 
3 和 页 面 6 都 是 非 从 属 组 织 页 面 。 由 此 也 可 看 出 ， 非 从 属 组 织 页 面 代 表 


单个 页 面 古 无 所 谓 从 属 或 者 非 从 属 组 织 页 面 


图 6-22 ”从 属 组 织 页 面 与 非 从 属 组 织 页 面 


专家 页 面 (Export Sources) 是 Hilltop 算 法 的 另外 一 个 重要 定义 。 
所 谓 专 家 页 面 ， 即 与 某 个 主题 相关 的 高 质量 页 面 ， 同 时 需要 满足 以 下 
要 求 : 这 些 页 面 的 链接 所 指 辣 的 页 面相 互 之 间 都 是 非 从 属 组 织 页 面 ， 
且 这 些 人 被 指 同 的 页 面 大 多 数 是 与 专家 页 面 主题 相近 的 。 

Hilltop 算 法 将 互联 网 页 面 划 分 为 两 类 子 集合 ， 最 重要 的 子 集合 是 由 
专家 页 面 构成 的 互联 网 页 面子 集 ， 不 在 这 个 子 集 合 里 的 剩 下 的 互联 网 
这 个 集合 称 做 目标 页 面 集 合 (Target Web 
Servers) ° 


6.7.2 Hilltop 算 法 


图 6-23 是 Hilltop 算 法 的 整体 流程 示意 。 首先 从 海量 的 互联 网 网 页 中 
通过 一 定 规则 筛选 出 专家 页 面子 集合 ， 并 单独 为 这 个 页 面 集 合 建立 索 
引 。Hilltop 在 接收 到 用 户 发 出 的 某 个 查询 请 求 时 ， 首 先 根据 用 户 查 询 的 
主题 ， 从 专家 页 面子 集合 中 找 出 部 分 相关 性 最 强 的 专家 页 面 ， 并 对 每 
个 专家 页 面 计算 相关 性 得 分 ， 然 后 根据 目标 页 面 和 这 些 专 家 页 面 的 链 
接 关 系 来 对 目标 页 面 进行 排序 。 基 本 思路 遵循 PageRank 算 法 的 链接 数 


量 假设 和 质量 原则 ， 将 专家 页 面 的 得 分 通过 链接 关系 传递 给 目标 页 
面 ， 并 以 此 分 数 作为 目标 页 面 与 用 户 查 询 相 关 性 的 排序 得 分 。 最 后 系 
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图 6-23 ”Hilltop 算 法 流程 


各 在 上 述 过 程 中 ，Hilltop 算 法 无 法 得 到 一 个 足够 大 的 专家 页 面 集 
合 ， 则 返回 搜索 绪 朱 为 空 。 由 此 可 以 看 出 ，Hilltop 算 法 更 注重 搜索 结 采 
的 精度 和 准确 性 ， 不 太 考 虑 搜索 结果 是 否 足够 多 或 者 对 大 多 数 用 户 查 
询 是 否 都 有 相应 的 搜索 结果 ， 所 以 很 多 用 户 发 出 的 查询 的 搜索 结果 为 
空 。 这 意味 着 Hilltop 算 法 可 以 与 某 个 排序 算法 相 结合 ， 以 提高 排序 准确 
性 ， 但 并 不 适合 作为 一 个 独立 的 网 页 排序 算法 来 使 用 。 

从 上 述 整 体 流程 描述 可 看 出 ，Hilltop 算 法 主要 包含 两 个 步骤 : 专家 
页 面 搜索 及 目标 页 面 排序 。 


步骤 一 : 专家 页 面 搜索 


Hilltop 算 法 从 1 亿 4 千 万 网 页 中 ， 通 过 计算 筛选 出 250 万 规模 的 互联 
网 页 面 作为 专家 页 面 集合 。 专 家 页 面 的 选择 标准 相对 宽松 ， 同 时 满足 
以 下 两 个 条 件 的 页 面 即 可 进入 专家 页 面 集合 。 

: Ke: 页 面 至 少 包 含 k 个 出 链 ， 这 里 的 数量 k 可 人 为 指定 。 

- FRED: k 个 出 链 指向 的 所 有 页 面相 互 之 间 的 关系 都 符合 非 从 属 
组 织 页 面 的 要 求 。 

当然 ， 在 此 基础 上 ， 可 以 设 定 更 严格 的 筛选 条 件 ， 比 如 要 求 这 些 
专家 页 面 所 包含 链接 指 疝 的 页 面 中 ， 大 部 分 涉及 的 主题 和 专家 页 面 的 
主题 必须 是 一 致 或 近似 的 。 

根据 以 上 条 件 筛 选 出 专家 页 面 后 ， 即 可 对 专家 页 面 单 独 建 索引 ， 
在 此 过 程 中 ， 索 引 系 统 只 对 页 面 中 的 关键 片段 (Key Phrase) 进行 索 
引 。 所 谓 关 键 片段 ， 在 Hilltop 算 法 里 包含 了 网 页 的 3 类 信息 : 网 页 标 
题 、H1 标 签 内 文字 和 URL 销 文字 。 

网 页 的 关键 片段 可 以 支配 (Qualify) 某 个 区 域内 包含 的 所 有 链 
接 ， 文 配 关 系 代 表 了 一 种 管辖 范围 ， 不 同 的 关键 片段 文 配 链接 的 区 域 
范围 不 同 ， 具 体 而 言 ， 页 面 标 题 可 以 支配 页 面 内 所 有 出 现 的 链接 ，HI1 
标签 可 以 支配 包围 在 <H1> 和 </H1> 内 的 所 有 和 链接， 而 URL 销 文字 只 能 
支配 本 身 唯一 的 链接 。 图 6-24 给 出 了 关键 片段 对 链接 支配 关系 的 示意 
图 ， 在 以 “奥巴马 访问 中 国 ” 为 标题 的 网 页 页 面 中 ， 标 题 支 配 了 所 有 这 
个 页 面 出 现 的 链接 ， 而 H1 标 签 的 管辖 范围 仪 限 于 标签 范围 内 出 现 的 两 
个 链接 ， 对 于 销 文 字 “ 中 国 领 导 人 ”来 说 ， 其 唯一 能 够 支配 的 就 是 本 身 
的 这 个 链接 。 之 所 以 定义 这 种 支配 关系 ， 对 于 第 2 阶段 将 专家 页 面 的 分 
值 传递 到 目标 页 面 时 候 会 起 作用 。 


Hn 
标题 ， 奥 巴 马 访 问 中 国 
(Reo 
访问 
中 国 <H1> 


[| 


专家 页 面 集合 目标 页 面 集合 
图 6-24 ”关键 片段 链接 支配 关系 


系统 接收 到 用 户 碍 询 Q， 假 设 用 户 碍 询 包 含 了 多 个 单词 ，Hilltop 如 
何 对 专家 页 面 进行 打分 呢 ? 对 专家 页 面 进 行 打分 主要 参考 以 下 3 类 信 


关键 片段 包含 了 多 少 查 询 词 ， 包 含 的 查询 词 越 多 ， 则 分 值 越 
， 如 来 不 包含 任何 查询 词 ， 则 该 和 天 键 厂 段 不 计 分 。 

关键 片段 本 身 的 类 型 信息 ， 网 页 标题 权 值 最 高 ，H1 标 签 次 之 ， 
再 次 是 链接 销 文 字 。 

* 用 户 查 询 和 关键 片段 的 失 配 率 ， 即 关键 片段 中 不 属于 查询 词 的 
ee eee 

Za 

Hilltop 综 合 考 虑 以 上 3 类 因素 ， 拟 合 出 打分 函数 来 对 专家 页 面 是 否 
与 用 户 碍 询 相 关 进 行 打分 ， 选 出 相关 性 分 值 足够 高 的 专家 页 面 ， 以 进 
行 下 一 步骤 操作 ， 即 对 目标 页 面 进 行 相关 性 计算 。 


步骤 二 : 目标 页 面 排序 


alt 


Hilltop 算 法 包含 一 个 基本 假设 ， 即 认为 一 个 目标 页 面 如 果 是 满足 用 
户 查 询 的 高 质量 搜索 结果 ， 其 充分 必要 条 件 是 该 目标 页 面 有 高 质量 专 
家 页 面 链接 指向 。 然 而 ， 这 个 假设 并 不 总 是 成 立 ， 比 如 有 的 专家 页 面 
的 链接 所 指向 的 目标 页 面 可 能 与 用 户 查询 并 非 密切 相关 。 所 以 ，Hilltop 
算法 在 这 个 阶段 需要 对 专家 页 面 的 出 链 仔细 进行 甄别 ， 以 保证 选 出 那 
些 和 查询 密切 相关 的 目标 页 面 。 

Hilltop 在 本 阶段 是 基于 专家 页 面 和 目标 页 面 之 间 的 链接 关系 来 进行 
的 ， 在 此 基础 上 ， 将 专家 页 面 的 得 分 传递 给 有 链接 关系 的 目标 页 面 。 
传递 分 值 之 前 ， 首 先 需要 对 链接 关系 进行 整理 ， 能 够 获得 专家 页 面 分 
值 的 目标 页 面 需要 满足 以 下 两 点 要 求 

. 条 件 1: 至 少 需 要 两 个 专家 页 面 有 链接 指向 目标 页 面 ， 而 且 这 两 
个 专家 页 面 不 能 是 从 属 组 织 页 面 ， 即 不 能 来 自 同 一 网 站 或 相关 网 站 。 
如 果 是 从 属 组 织 页 面 ， 则 只 能 保留 一 个 链接 ， 扫 弃权 信 低 的 那个 链 

. 条 件 2， 专 家 页 面 和 所 指向 的 目标 页 面 也 需要 符合 一 定 要 求 ， 即 
这 两 个 页 面 也 不 能 是 从 属 组 织 页 面 。 

在 步骤 一 ， 给 定 用 户 查询 ，Hilltop 算 法 已 经 获得 相关 的 专家 页 面 及 
其 与 查询 的 相关 度 得 分 ， 在 此 基础 上 ， 如 何 对 目标 页 面 的 相关 性 打 
分 ?上面 列 出 的 条 件 1 指出 ， 能 够 获得 传递 分 值 的 目标 页 面 一 定 有 多 个 
专家 页 面 链接 指向 ， 所 以 目标 页 面 所 获得 的 总 传播 分 值 是 每 个 有 链接 
指向 的 专家 页 面 所 传递 分 值 之 和 。 而 计算 其 中 某 个 专家 页 面 传递 给 目 
标 页 面 权 值 的 时 候 是 这 么 计算 的 ; 

a， 找 到 专家 页 面 中 那些 能 够 支配 目标 页 面 的 关键 片段 集合 S 。 
apts 统计 $ 中 包含 用 户 查 询 沁 的 关 刍 片段 个 数 T，T 越 大 传递 的 权 值 


c. 专家 页 面 传递 给 目标 页 面 的 分 值 为 : ExT，E 为 专家 页 面 本 身 在 
第 一 阶段 计算 得 到 的 相关 得 分 ，TI 为 b 步 又 计算 的 分 值 。 

我 们 以 图 6-25 的 具体 例子 来 说 明 。 假 设 专家 页 面 集合 内 存在 一 个 网 
页 P， 其 标题 为 “奥巴马 访问 中 国 *»， 网 页 内 容 由 一 段 <H1> 标 签 文 字 和 为 
一 个 蛙 独 的 链接 销 文 字 组 成 。 该 页 面包 含 3 个 出 链 ， 其 中 两 个 指向 目标 
页 面 集合 中 的 网 页 www.china.org， 男 外 一 个 指 癌 网 页 www.obama.org ° 
出 链 对 应 的 销 文 字 分 别 为 “奥巴马 ”、“ 中 国 * 和 “中 国 领导 人 ”。 
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图 6-25 ”Hilltop 算 法 分 值 传递 


从 图 示 的 链接 关系 可 以 看 出 ， 网 页 P 中 能 够 文 配 www.china.org 这 个 
目标 页 面 的 关键 片段 集合 包括 : {中 国 领导 人 ， 中 国 ，<H1> 奥 巴 马 访问 
中 国 </H1> ， 标 题 : 奥巴马 访问 中 国 }， 而 能 够 文 配 www.obamba.org 目 
标 页 面 的 关键 片段 集合 包括 : {奥巴马 ，<H1> 奥 巴 马 访问 中 国 </H1>， 
标题 : 奥巴马 访问 中 国 } 。 

接 下 来 我 们 分 析 专 家 页 面 P 在 接收 到 查询 时 ， 是 怎样 将 分 值 传递 给 
与 其 有 链接 关系 的 目标 页 面 的 。 假 设 系统 接收 到 的 查询 请 求 为 * 奥 巴 
马 ?， 在 接收 到 查询 后 ， 系 统 首 先 根据 上 述 章 节 所 述 ， 找 出 专家 页 面 并 
给 予 分 值 ， 而 网 页 P 作 为 专家 页 面 中 的 一 个 页 面 ， 并 获得 了 相应 的 分 值 
S， 我 们 重点 关注 分 值 传播 步骤 。 

对 于 查询 “奥巴马 ?来 说 ， 网 页 P 中 包含 这 个 查询 词 的 关键 片段 集合 
A: {奥巴马 ，<H1> 奥 巴 马 访问 中 国 </H1>， 标 题 ， 奥巴马 访问 中 
国 }， 如 上 所 述 ， 这 3 个 关键 片段 都 能 够 支配 www.obama.org 页 面 ， 所 以 
网 页 PP 传递 给 www.obamba.org 的 分 值 为 Sx3。 而 对 于 目标 页 面 
www.china.org 来 说 ， 这 3 个 天 键 片 段 中 只 有 {<H1> 奥 巴 马 访问 中 国 
</H1>， 标 题 ， 奥巴马 访问 中 国 } 这 两 个 能 够 文 配 目标 页 面 ， 所 以 网 页 P 
传递 给 www.china.org 的 分 值 为 Sx2 。 

对 于 包含 多 个 查询 词 的 用 户 请 求 ， 则 每 个 查询 词 单独 如 上 计算 ， 
将 多 个 查询 词 的 传递 分 值 累加 即 可 。 


Hilltop 算 法 存在 与 HITS 算 法 类 似 的 计算 效率 问题 ， 因 为 根据 查询 
主题 从 专家 页 面 集 合 中 选取 主题 相关 的 页 面子 集 也 是 在 线 运 行 的 ， 这 
与 前 面 担 到 的 HITS 算 法 一 样 会 影响 查询 啊 应 时 间 。 随 着 专家 页 面 集 合 
的 增 大 ， 算 法 的 可 扩展 性 存在 不 足 之 处 。 


6.8 ”其 他 改进 算法 


上 述 章 节 详 述 了 5 个 非常 重要 的 链接 分 析 算 法 ， 在 此 基础 上 ， 学 术 
人 
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6.8.1 ”智能 游 走 模型 (Intelligent Surfer Model) 


智能 游 走 模 型 是 对 PageRank 算 法 的 改进 ， 算 法 提出 者 认为 
PageRank 所 导 循 的 随机 游 走 模型 不 符合 真实 情况 ， 济 贤 者 在 浏 哎 一 个 
页 面 并 选择 下 一 步 点 击 对 象 时 ， 并 非 随机 的 ， 而 古 会 对 链接 进行 亚 
别 ， 如 果 某 个 链接 的 网 页 内 容 能 够 表达 浏览 者 向 搜索 引 苟 发 出 的 查询 
词 主题 ， 则 用 户 选 择 点 击 这 个 链接 的 概率 会 更 大 。 和 宥 能 游 走 模型 即 是 
对 这 种 情况 建立 模型 ， 会 判断 网 页 包含 的 链接 所 指向 的 网 页 内 容 和 用 
户 查 询 的 相关 性 ， 以 此 来 改善 链接 分 析 效 果 。 

智能 游 走 模型 考虑 到 了 网 页 内 容 和 用 户 输入 查询 词 的 相关 性 ， 所 
以 是 查询 相关 的 链接 分 析 算 法 。 但 是 需要 在 线 计算 茶 个 查询 和 网 页 内 
容 的 相关 性 ， 所 以 计算 速度 较 慢 站 其 重要 缺陷 。 


6.8.2 MEERE (Biased Surfer Model) 


偏 置 游 走 模 型 也 是 针对 PageRank 的 随机 游 走 模型 的 改进 ， 其 基本 
思路 和 智能 游 走 模 型 很 接近 ， 不 同 点 在 于 : 管 能 游 走 模型 考虑 的 十 网 
页 内 容 和 用 户 查 询 的 相关 性 ， 而 偏 置 游 走 模型 考虑 的 是 链接 指向 的 网 
页 内 容 和 当前 浏览 网 页 内 容 之 间 的 相似 性 ， 即 认为 如 采 链 接 指 癌 网 页 
内 容 和 当前 浏览 网 页 内 容 越 相似 ， 则 用 户 越 可 能 点 击 这 个 链接 。 

偏 置 游 走 模型 由 于 没有 考虑 查询 ， 而 只 需要 计算 网 页 内 容 之 间 的 
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6.8.3 PHITSS (Probability Analogy of HITS) 


PHITS 算 法 是 对 HITS 算 法 的 直接 改进 。HITS 算 法 在 通过 链接 进行 
权 值 传递 时 ， 会 将 Hub 或 者 Authority 有 点 的 权 值 全 部 传递 给 所 有 相连 链 
接 ， 而 PHITS 算 法 认为 不 同 链接 其 传递 权 值 的 能 力 应 该 是 不 同 的 ， 这 是 
站 
强度 。 

PHITS 算 法 在 页 面 S$ 和 页 面 T 之 间 引 入 主题 隐 变 量 ， 而 两 个 页 面 之 
间 链 接 的 强度 取决 于 两 个 页 面 和 这 个 隐 变 量 的 主题 看 合 关 系 ， 所 以 可 
以 将 这 个 算法 看 做 PLSI 算 法 的 链接 分 析 了 版 本 。 虽 然 看 上 去 复杂 ， 但 是 
PHITS 算 法 的 本 质 思想 和 偏 置 游 走 模型 是 一 样 的 ， 即 考虑 的 其 实 是 页 面 
S 和 页 面 T 之 间 的 内 容 相 似 性 ， 内 容 越 相似 其 链接 强度 越 强 ， 传 递 权 值 
的 能 力 越 强 。PHITS 算 法 和 直接 计算 页 面 内 容 相 似 性 的 区 别 ， 仅 仅 是 加 
入 一 个 隐藏 主题 层 ， 通 过 网 页 和 隐藏 层 的 关系 来 计算 相似 性 © 


6.8.4 BFS 算 法 (Backward Forward Step) 


BFS 算 法 作为 SALSA 算 法 的 改进 提出 ， 而 其 本 质 既 是 对 SALSA 算 
法 的 扩展 ， 也 是 对 HITS 算 法 的 限制 。SALSA 算 法 在 计算 网 页 的 
Authority 分 值 时 ， 仅 仅 考 虑 了 通过 Hub 节 点 能 够 直接 建立 联系 的 网 页 之 
间 的 关系 ， 而 HITS 算 法 考虑 的 是 链接 图 的 整个 结构 ， 任 意 两 个 网 页 S 和 
T， 如 果 网 页 S 能 够 通过 中 间 节 点 链接 到 网 页 T， 则 网 页 $S 就 对 网 页 T 有 
影响 ， 而 影响 的 大 小 取决 于 从 S 到 T 的 不 同 路 径 走 法 的 个 数 ， 与 到 T 的 
距离 远近 没有 关系 。 

BFS 则 是 对 两 者 的 一 个 折 中 考虑 ， 解 除了 SALSA 算 法 只 允许 直接 
相 令 网 页 才能 有 影响 的 限制 ， 只 要 网 页 S 可 以 通达 T， 即 可 对 网 页 T 施 加 
影响 ， 但 是 又 对 HITS 的 网 页 影响 方式 做 了 限制 ， 如 果 网 页 S 距 离 网 页 T 
距离 越 远 ， 那 么 网 页 $ 的 影响 就 随 着 距离 增 大 而 呈 指 数 衰 减 ， 即 距离 越 
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本 章 提 要 


链接 分 析 在 搜索 引擎 搜索 结果 排序 中 起 到 非常 重要 的 作用 。 
绝 大 部 分 链接 分 析 算 法 建立 在 随机 游 走 模型 和 子 集 传播 模型 基 


础 之 上 


* PageRank 和 HITS 算 法 是 最 重要 且 基 础 的 两 种 链接 分 析 算 法 ， 很 
多 链接 分 析 算 法 钙 对 这 两 种 方法 的 改进 。 


SALSA 算 法 是 目前 效 打 最 好 的 链接 分 析 算法 之 一 ， 其 融合 了 
HITS 算 法 与 得 询 相关 的 特点 ， 以 及 PageRank 算 法 的 随机 游 走 模型 。 
主题 敏感 PageRank 是 对 PageRank 算 法 的 改进 ， 可 以 应 用 于 个 性 
化 搜索 中 。 
”Hilltop 算 法 除了 可 以 用 来 改善 搜索 系统 的 精确 性 ， 还 可 以 用 来 
当做 网 页 反 作 兹 的 技术 手段 。 
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第 7 章 ” 云 存储 与 云 计算 


“秋水 时 至 ， 百 川 灌 河 ; 泾 流 之 大 ， 两 汉 渚 典 之 间 不 辩 牛 马 。 于 是 在 河 
伯 欣 然 自 喜 ， 以 天 下 之 美 为 尽 在 已 。 顺 流 而 东 行 ， 至 于 北海 ， 东 面 而 
视 ， 不 见 水 端 。 于 是 丰 河 伯 始 旋 其 面目 ， 望 洋 向 者 而 叹 日 : 野 语 有 之 
日 ，“ 闻 道 百 ， 以 为 莫 已 若 : 者 ， 我 之 谓 也 。 且 夫 我 党 闻 少 仲 尼 之 闻 而 轻 
ARZE, WERE: 今 我 睹 子 之 难 穷 也 ， 吾 非 至 于 子 之 门 则 殉 
锋 ， 吾 长 见笑 于 大 方 之 家 。” 


DEF. 《秋水 》 


对 于 Google 这 种 大 型 搜索 引擎 服务 提供 商 来 说 ， 需 要 处 理 的 数据 
已 超 百 亿 ， 而 且 绝 大 部 分 数据 是 网 页 这 种 无 结构 或 者 半 结 构 化 的 数 
据 。 如 何 构 建 存 储 平台 和 计算 平台 ， 使 得 存储 和 管理 这 些 海 量 数 据 简 
单 化 ， 束 成 为 了 重要 问题 。 云 存储 与 云 计算 平台 束 古 为 了 解决 这 个 问 
题 而 提出 的 技术 方案 。 目 前 来 说 ， 能 够 提供 一 套 高 效 的 云 存 储 与 云 计 
算 平 台 ， 已 成 为 搜索 引擎 公司 的 核心 竞争 力 。 

云 存储 与 云 计 算是 目前 非常 流行 的 技术 概念 ， 一 些 国外 的 大 型 互 
联网 公司 在 此 走 在 前 列 ， 最 典型 的 是 Google 公 司 和 亚马逊 公司 ， 这 两 
个 公司 是 首 移 应 用 并 大 力 倡 导 云 计算 的 领头 企业 。 尽 管 2011 年 4 月 亚 马 
还 公司 的 云 计 算 服 务 出 现 了 大 规模 的 故障 ， 导 致 很 多 构建 在 其 上 的 互 
联网 公司 停止 服务 ， 这 为 云 计算 领域 的 发 展 蒙 上 了 一 层 阴 影 ， 但 是 云 
计算 作为 一 种 大 的 技术 和 商业 趋势 ， 一 定 会 继续 迅猛 前 行 。 

本 章 以 Google 提 供 的 一 整套 云 存储 与 云 计 算 技 术 框 架 为 主 ， 来 介 
绍 相 关 的 核心 技术 ， 不 仅 对 GFS/BigTable/MapReduce 三 区 马车 给 出 了 详 
细 说 明 ， 还 对 Google 刚 部 署 不 和 久 的 咖啡 因 系 统 及 更 进一步 的 MegaStore 
存储 系统 等 新 披露 的 技术 进行 了 讲解 。 除 此 之 外 ， 还 对 另外 一 些 有 特 
色 的 云 存 储 平台 进行 了 介绍 ， 比 如 亚 蕊 进 公 司 的 Dynamo， 和 雅虎 公司 的 
PNUTS 及 Facebook 公 司 的 HayStack 存 储 平台 ， 这 些 技术 各 有 特点 ， 是 
非常 有 代表 性 的 云 存 储 与 云 计算 平台 ， 基 本 能 够 概括 云 计 算 领 域 的 技 
术 现 状 。 但 是 有 一 点 需要 读者 注意 : 本 章 所 说 的 云 计算 是 狭义 的 ， 不 
人 人 总 体 而 言 ， 本 章 以 云 存储 作为 讲解 重 


71 云 存 储 与 云 计 算 概述 


本 而 从 云 存储 与 云 计算 的 基本 假设 、 理 论 基础 、 数 据 模型 及 基本 
问题 等 方面 开始 ， 使 得 读者 对 这 个 计算 领域 有 个 宏观 的 整体 性 认识 ， 
同时 本 节 对 Google 的 整套 技术 框架 做 出 概述 性 的 说 明 。 


7.1.1 基本 假设 


云 存 储 与 云 计 算 首 先 由 大 型 互联 网 公司 提倡 并 推行 ， 征 由 于 互联 
网 数据 的 炮 炸 性 增长 导致 的 。 互 联网 服务 和 传统 软件 行业 提供 的 服务 
有 很 大 差异 ， 也 有 其 特点 ， 所 以 云 存 储 与 云 计 算 平 台 的 设计 和 构建 都 
遵循 以 下 一 些 基 本 假设 与 要 求 。 


1. 由 大 量 廉价 PC 构成 


传统 的 海量 数据 存储 与 管理 ， 往 往 会 选择 商用 数据 库 ， 但 是 现代 
云 计算 和 云 存储 平台 与 此 思路 不 同 ， 往 往 使 用 大 量 廉价 PC 作为 基本 的 
存储 节点 。 一 方面 这 样 可 以 市 省 企业 数据 存储 和 计算 的 成 本 ， 男 外 一 
方面 ， 数 据 库 的 扩展 性 不 能 满足 拥有 海量 数据 的 互联 网 企业 要 求 ， 这 
苹 云 存储 与 云 计算 平台 兴起 的 一 个 基本 至 景 。 


2. 机 器 节点 出 现 故 障 是 常态 


由 于 是 大 量 普通 PC 构成 的 分 布 式 系 统 ， 众 所 周知 ，PC 的 故障 率 很 
高 ， 尤 其 是 这 种 众多 PC 协同 提供 服务 的 模式 ， 随 时 都 有 可 能 某 人 台 机 器 
出 现 故 障 ， 所 以 云 存 储 与 云 计 算 技 术 方案 在 设计 之 初 ， 就 应 该 将 这 种 
经 常 性 的 机 器 故障 作为 一 个 设计 考虑 因素 ， 在 这 个 约束 前 提 下 提供 可 
靠 服 务 ， 必 须要 考虑 到 数据 的 可 用 性 与 安全 性 。 


3. 水 平 增 量 扩展 


互联 网 服务 随时 都 要 啊 应 用 户 的 请 求 ， 随 看 数据 量 的 不 断 增 大 ， 
需要 靠 增加 机 器 来 承载 更 多 数据 ， 即 使 这 样 ， 也 不 可 能 中 断 服务 来 进 
行 ， 所 以 必须 在 用 户 无 察 党 的 情况 下 实现 增 量 扩展 。 而 对 于 云 存储 与 
云 计算 平台 ， 应 该 做 到 简单 增加 机 器 束 可 以 目 动 实现 增 量 扩展 ， 这 往 
往 是 通过 数据 的 水 平分 割 实现 的 。 


4.， 弱 数据 一 致 性 


云 存 储 与 云 计 算 平 台 有 其 优势 : 高 可 用 性 、 易 扩展 性 、 容 错 性 能 
好 。 但 这 种 优势 并 非 是 无 代价 的 ， 其 付出 的 代价 束 是 数据 的 弱 数 据 一 
臻 性。 数据 库 提 供 了 数据 的 强 数 据 一 致 性 视角 ， 并 在 此 基础 上 提供 了 
事务 文 持 ， 而 云 计算 平台 则 放松 这 种 强 数 据 一 臻 性， 这 主要 是 因为 很 
多 互联 网 服务 并 不 要 求 这 种 强 数据 一 致 性 。 


5. 读 多 写 少 型 服务 


互联 网 服务 有 个 特点 ， 即 读 多 写 少 ， 也 就 是 说 大 量 的 请 求 是 读 取 
数据 ， 少 量 的 服务 是 对 数据 做 出 更 改 。 所 以 在 设计 云 存储 与 云 计算 平 
台 时 ， 应 该 考虑 到 这 个 特点 ， 做 出 有 针对 性 的 优化 ， 保 证 系统 效率 。 


7.1.2 ”理论 基础 


CAP、BASE、ACID 及 最 终 一 致 性 等 这 些 基础 原理 对 于 深入 理解 
云 存储 与 云 计 算 技 术 有 重要 指导 作用 。 

CAP 是 对 Consistency/Availability/Partition Tolerance 的 一 种 简称 ， 其 
分 别 代 表 : 一 致 性 、 可 用 性 和 分 区 容忍 性 (参考 图 7-1) WRECZ 
证 明 ， 对 于 一 个 数据 系统 来 说 ，CAP 3 个 要 素 不 可 兼 得 ， 同 一 个 系统 
多 只 能 实现 其 中 的 两 个 ， 而 必须 放宽 第 3 个 要 素来 保证 其 他 两 个 要 素 伞 
满足 。 对 于 分 布 式 系 统 来 说 ， 分 区 容忍 性 是 天 然 具 备 的 要 求 ， 所 以 在 
设计 具体 技术 方案 时 ， 必 须 在 一 致 性 和 可 用 性 方面 做 出 取舍， 要 么 选 
择 强 数据 一 致 性 减弱 服务 可 用 性 ， 要 么 选择 高 可 用 性 容忍 弱 数 据 一 致 
性 。 一 般 认 为 ， 传 统 的 关系 数据 库 在 三 要 素 中 选择 AP 两 个 因素 ， 即 强 
数据 一 致 性 、 高 可 用 性 但 是 可 扩展 性 差 。 而 云 存 储 系统 往往 关注 CA 因 
素 ， 即 高 可 扩展 性 、 高 可 用 性 ， 但 是 以 弱 数 据 一 致 性 作为 代价 。 
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图 7-1 ”CAP 原理 


BASE 原 则 是 和 ACID 原则 相反 的 基本 原理 ， 我 们 先 介 绍 什么 是 
ACID 原则 ，ACID 是 关系 数据 库 系 统 采 纳 的 原则 ， 也 是 一 种 简称 ， 其 
代表 含义 如 下 。 

原子 性 (Atomicity) : 是 指 一 个 事务 要 么 全 部 执行 ， 要 么 完全 不 
执行 ， 也 就 是 不 允许 一 个 事务 只 执行 了 一 半 就 停止 。 以 银行 转账 为 
例 ， 这 是 一 个 典型 的 事务 ， 它 的 操作 可 以 分 成 几 个 步 又 ， 首 先 从 A 账户 
取出 要 转账 的 金额 ，A 账 户 扣 除 相 应 的 金额 之 后 ， 将 其 转 入 B 账 户 的 户 
头 ，B 账 户 增 加 相同 的 金额 。 这 个 过 程 必须 完整 地 执行 ， 否 则 整个 过 程 
将 被 取消 ， 回 退 到 事务 未 执行 前 的 状态 。 不 允许 出 现 从 A 账户 已 经 扣除 
金额 ， 而 没有 打 入 B 账 户 这 种 情形 。 

一 致 性 (Consistency) : 事务 在 开始 和 结束 时 ， 应 该 始终 满足 
一 致 性 约束 条 件 。 比 如 系统 要 求 A 十 B=100， 那 么 事务 如 果 改 变 了 A 的 
数值 ， 则 B 的 数值 也 要 相应 修改 来 满足 这 种 一 致 性 要 求 。 

: 事务 独立 (Isolation) : 如 果 有 多 个 事务 同时 执行 ， 彼 此 之 间 
不 需要 知晓 对 方 的 存在 ， 而 且 执行 时 互 不 影响 ， 不 允许 出 现 两 个 事务 
交错 ， 间 隅 执行 部 分 任务 的 情形 。 

: 持久 性 (Durability) : 事务 的 持久 性 是 指 事务 运行 成 功 以 后 ， 
对 系统 状态 的 更 新 是 永久 的 ， 不 会 无 毕 由 回 深 撤销 。 

数据 库 系 统 采纳 ACID 原则 ， 获 得 高 可 靠 性 和 强 数 据 一 致 性 。 而 大 
多 数 云 存 储 系 统 则 采纳 BASE 原 则 ， 这 种 原则 与 ACID 原则 差异 很 大 ， 


具体 而 言 ，BASE 原 则 是 指 : 

: 基本 可 用 (Basically Available) : 在 绝 大 多 数 时 间 内 系统 处 于 
可 用 状态 ， 人 允许 侦 尔 的 失败 。 

:” 软 状态 或 者 柔性 状态 (Soft State) : 数据 状态 不 要 求 在 任意 时 
刻 都 完全 保持 同步 。 

- 最 终 一 致 性 (Eventual Consistency) : 与 强 数据 一 致 性 相 比 ， 
最 终 一 致 性 是 一 种 弱 数 据 一 致 性 ， 尽 管 软 状态 不 要 求 任意 时 刻 数 据 保 
持 一 至 同 步 ， 但 是 最 终 一 致 性 要 求 在 给 定时 间 窗 口内 数据 达到 一 致 状 


o 


BASE 原 则 与 ACID 原则 不 同 ， 是 通过 牺牲 强 数 据 一 致 性 来 获得 高 
可 用 性 的 。 尽 管 大 多 数 云 存储 系统 采纳 了 BASE 原 则 ， 但 是 有 一 点 值得 
注意 : 云 存 储 系统 的 发 展 过 程 正在 向 逐步 提供 局 部 ACID 特性 发 展 ， 即 
全 局 而 言 符合 BASE 原 则 ， 但 是 局 部 支持 ACID 原 则 ， 这 样 就 可 以 吸取 
两 者 各 自 的 好 处 ， 在 两 者 之 间 建 立 平衡 ， 从 Google 的 MegaStore 可 以 看 
出 这 种 发 展 趋势 。 

大 多 数 云 存 储 系统 采纳 了 最 终 一 致 性 ， 在 分 布 式 存储 架构 中 ， 
份 数 据 都 要 保留 多 个 备份 ， 但 是 由 于 客户 端 程序 是 并 发 对 数据 读 二 
写 ， 可 能 同时 有 多 个 客户 端 将 数据 更 新 到 不 同 的 备份 中 ， 这 可 能 导致 
数据 的 不 一 致 状态 ， 如 何 维护 数据 保持 一 致 是 个 核心 问题 。 所 谓 强 数 
据 一 致 性 ， 就 是 要 求 后 续 的 读 取 操作 看 到 的 都 是 最 新 更 新 的 数据 ;而 
弱 数 据 一 致 性 则 放宽 条 件 ， 人 允许 读 取 到 较 旧 版 本 的 数据 ， 最 终 一 致 性 
则 是 给 出 一 个 时 间 窗 口 ， 在 一 段 时 间 后 ， 系 统 能 够 保证 所 有 备份 数据 
的 更 新 是 一 致 的 。 


7.1.3 ”数据 模型 


所 谓 数 据 模型 ， 职 是 云 存 储 织 构 在 应 用 开发 者 眼中 是 何 种 形式 ， 
比较 常见 的 数据 模型 有 两 种 : Key/Value 模 式 和 模式 自由 (Schema 
Free) 列表 模式 。 图 7-2 展 示 了 两 者 的 区 别 ，Key/Value 模 式 是 一 种 比较 
简单 的 数据 模型 ， 每 个 记录 由 两 个 域 构成 ， 一 个 是 主键 Key， 作 为 记录 
的 唯一 标识 ， 男 一 个 字段 则 存储 记录 的 数据 值 ， 模 式 目 由 列表 模式 情 
况 则 复 洒 一 些 ， 同 样 地 ， 每 个 记录 由 一 个 唯一 的 主键 标识 ， 不 同 点 在 
于 数据 值 ， 类 似 于 关系 数据 库 ， 数 据 值 由 大 和 干 个 列 属 性 构成 ， 但 是 与 
数据 库 不 同 的 是 : 数据 库 一 旦 确定 列 包 含 哪些 属性 ， 就 固定 不 变 ， 而 
云 存 储 系 统 则 不 受 此 约束 ， 可 以 随时 增加 或 者 删除 某 个 列 属 性 ， 同 时 
每 一 行 只 存储 部 分 列 属性 ， 不 必 完 全 存储 。 


图 7-2 云 存储 数据 模型 


在 云 存储 系统 内 部 实现 存储 结构 的 时 候 ， 最 终 可 以 归结 为 两 种 实 
现 方 式 ， 哈 大 加 链表 或 者 B 十 树 的 方式 。 哈 希 加 链表 查询 速度 较 快 ， 但 
是 一 次 只 能 查询 一 条 记录 ， 无 法 支持 批量 顺序 查找 记录 (Scan 方 
式 ) ， 而 B 十 树 则 文 持 这 种 查找 方式 ， 但 是 其 管理 方式 相对 复杂 ， 所 以 
两 种 方式 各 擅 胜 场 ， 适 合 不 同 的 应 用 场合 。 


7.1.4 ”基本 问题 


对 于 一 个 由 大 量 廉价 PC 构成 的 分 布 式 存储 系统 来 说 ， 不 管 具体 方 
案 采 取 何 种 技术 路 线 ， 都 面临 一 些 共同 的 问题 ， 这 些 问题 包括 。 


1. 数据 如 何在 机 响 之 间 分 布 
由 于 数据 量 巨大 ， 单 个 机 器 很 难 承担 存储 全 部 数据 的 责任 ， 所 以 
必须 将 数据 进行 切割 ， 将 大 数据 切割 成 小 份 ， 并 将 其 分 配 到 其 他 机 器 
上 ， 数 据 的 分 布 策略 是 自 先 要 考虑 的 问题 。 
2. 多 备份 数据 如 何 保证 一 致 性 
在 由 大 量 廉价 PC 构成 的 分 布 式 存储 系统 中 ， 随 时 都 可 能 有 PC 出 现 


故障 ， 放 置 在 故障 机 器 上 的 数据 会 因此 不 可 用 ， 出 于 数据 可 用 性 方面 
的 考虑 ， 现 代 云 存储 系统 必须 将 数据 做 多 备份 ， 并 将 备份 数据 放置 在 


不 同 机 器 上 。 而 云 计算 环境 下 ， 很 多 客户 端 程序 会 并 发 对 数据 进行 读 
了 写 ， 这 样 数据 的 多 个 备份 之 间 如 何 保证 其 状态 是 一 致 的 就 成 了 云 存 
储 系统 的 核心 问题 。 


3. 如 何 响应 客户 端的 读 / 写 请 求 


几 千 台 机 器 构成 了 云 存储 与 云 计 算 平 台 ， 对 于 客户 端的 数据 读 人 
写 请 求 ， 如 何 将 请 求 在 不 同 功 能 的 机 右 之 间 轩 发， 并 做 出 针对 性 啊 
应 ， 同 时 读 了 写 延 迟 尽 可 能 短 ， 数 据 尽 可 能 保证 正确 ， 这 些 都 是 云 存 
储 与 云 计算 平台 需要 提供 的 基本 功能 和 保证 。 


4. 加 入 (或 者 坏 掉 ) 一 人 台 机 器 如 何 处 理 


既然 是 由 大 量 PC 构成 的 系统 ， 随 着 数据 量 不 断 增加 ， 需 要 的 机 器 
也 随 之 增长 ， 如 条 新 加 入 存储 机 ， 系 统 应 该 将 之 纳入 管理 范围 ， 并 目 
动 为 其 分 配 任 务 ， 同 样 地 ， 如 果 某 侣 机 器 因 故 障 不 可 用 ， 如 何 识别 这 
种 状态 及 如 何 对 其 负 贡 存储 的 数据 进行 迁移 与 备份 ， 这 也 是 云 存储 平 
台 的 重要 问题 。 


5. 如 何在 机 器 之 间 进 行 负载 均衡 


大 量 PC 共同 承担 数据 存储 与 读 写 响应 ， 很 容易 出 现 分工 不 均 的 
Tei, SER lessee AIL, Males, REA, K 
忙 机 融 很 易 成 为 系统 瓶颈 ， 而 朵 置 机 万 资产 又 没有 充分 利用 起 来 ， 所 
以 如 何在 机 需 之 间 进 行 负载 均衡 ， 使 得 不 会 出 现 瓶 贷 世 点 的 同时 又 能 
充分 利用 机 器 资源 ， 这 同样 是 需要 考虑 的 重要 问题 。 


7.15 Google 的 云 存 储 与 云 计 算 架 构 
Google 对 于 推动 云 存 储 与 云 计 算 页 献 了 很 大 力量 ， 而 有 旦 到 目前 为 


止 ， 也 十 在 相关 技术 方面 积累 最 深厚 的 公司 ， 图 7-3 展 示 了 Google 的 一 
整套 云 存储 与 云 计算 技术 体系 。 
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图 7-3 Google 的 云 存 储 与 云 计 算 架 构 


从 大 的 角度 划分 ， 可 以 将 这 些 技术 划分 为 两 类 : 一 类 是 云 存 储 技 
术 ， 男 一 类 是 云 计 算 技 术 。 云 存储 技术 包括 : GFS 文 件 系统 、Chubby 
锁 服 务 、BigTable 及 MegaStore 等 一 系列 不 断 进化 的 存储 系统 ; 云 计算 
体系 则 包含 MapReduce、Percolator 及 Pregel 等 互补 的 计算 模式 。 

GFS 是 一 个 分 布 式 文件 系统 ， 对 海量 数据 提供 了 底层 的 存 取 文 持 ， 
至 于 文件 内 容 本 身 则 不 做 格式 要 求 ，BigTable 提 供 了 数据 的 结构 化 和 半 
结构 化 视图 ， 其 数据 模型 与 具体 应 用 更 贴近 ， 同 时 BigTable 提 供 了 记录 
行内 针对 列 属性 的 原子 操作 ， 即 实现 了 基于 行 的 事务 ， 但 不 提供 行 间 


或 者 表 间 的 事务 文 持 ，MegaStore 则 在 BigTable 基 础 上 在 事务 文 持 方面 

又 向 数据 库 方 向 前 进 了 一 步 ， 文 持 对 数据 的 分 组 ， 组 内 数据 文 持 ACID 

原则 ， 同 时 强调 局 部 数据 的 强 数据 一 致 性 和 高 可 用 性 ， 可 在 此 基础 上 

直接 提供 面向 用 户 的 实时 交互 服务 。Chubby 则 在 GFS 和 BigTable 中 起 到 

， 包 括 主 服 务 器 的 选举 、 元 数据 的 存储 、 粗 粒度 的 锁 
FIF O? 

MapReduce 和 Percolator 这 两 个 模型 则 是 在 以 上 的 云 存 储 架 构 下 的 
计算 模型 ， 两 者 都 是 后 台 计 算 模 型 ， 即 其 实时 性 不 够 ， 比 较 适 合 做 后 
台 运 算 。MapReduce 适 合 做 大 规模 数据 的 全 局 统计 ， 对 于 数据 的 增 量 更 
狐 无 法 文 持 。 而 Percolator 则 是 对 MapReduce 计 算 模 型 的 补充 ， 可 以 对 
已 有 数据 做 部 分 更 新 ， 并 在 BigTable 的 行事 务 基础 上 提供 行 间 事务 和 表 
间 事 务 ， 同 时 利用 观察 通知 的 方式 来 组 织 运算 系统 。 而 Pregel 计 算 模型 
则 是 专门 针对 大 型 图 结构 研发 的 云 计 算 技 术 。 男 外 ，Google 正 在 进行 
第 二 代 GFS 及 代号 为 Spanner 的 第 二 代 BigTable 的 研发 。 

受 Google 云 存储 与 云 计算 架构 的 启发 ， 开 源 界 组 织 起 功能 类 似 的 
Hadoop 项 目 ， 其 项 目 分 文 和 Google 相 应 技术 的 对 比 见 图 7-4。 其 中 
HDFS 类 似 于 GFS 文 件 系 统 的 功能 ，HBase 则 是 仿照 BigTable 设 计 的 ， 
Zookeeper 起 到 类 似 于 Chubby 的 功能 ， 同 时 Hadoop 也 文 持 MapReduce 计 
算 模型 。 
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图 7-4 ”Hadoop 开 源 架构 与 Google 系 统 对 应 关系 图 
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Hadoop 得 到 雅虎 公司 的 资助 ， 近 些 年 获得 了 很 快 的 发 展 ， 很 多 大 
的 互联 网 公司 都 采用 它 来 做 大 规模 数据 的 后 台 计 算 ， 比 如 Facebook 和 
百度 公司 就 使 用 Hadoop， 并 对 这 一 系统 做 出 了 有 针对 性 的 改进 。 


7.2 Google 文件 系统 (GFS) 


Google 文 件 系统 (Google File System ， 简 称 为 GFS) 是 Google 公 司 
为 了 能 够 存储 以 百 亿 计 的 海量 网 页 信息 而 专门 开发 的 文件 系统 。 在 
Google 的 整个 云 存 储 和 云 计算 技术 框架 中 ，GFS 是 其 他 相关 技术 的 基 
石 ， 因 为 GFS 提 供 了 海量 非 结构 化 信息 的 存储 平台 ， 并 提供 了 数据 的 元 
余 备 份 、 成 干 台 服务 器 的 目 动人 负载 均衡 及 失效 服务 絮 检 测 等 各 种 完备 
的 分 布 式 存储 功能 。 只 有 在 GFS 提 供 的 基础 功能 之 上 ， 才 能 开发 更 加 符 
合 应 用 需求 的 存储 系统 和 计算 框架 。 


7.2.1 GEFS 设 计 原 则 


GFS 是 针对 Google 公 司 自 身 业 务 需 求 而 开发 的 ， 所 以 考虑 到 搜索 引 
擎 这 个 应 用 环境 ，GFS 在 设计 之 初 即 定 下 几 个 基本 的 设计 原则 。 

首先 ，GFS 采 用 大 量 商业 PC 来 构建 存储 集群 ， 众 所 周知 ，PC 因 为 
是 面向 普通 用 户 设 计 的 ， 所 以 其 稳定 性 并 没有 很 高 的 保障 ， 尤 其 是 大 
量 PC 构 成 的 集群 系统 ， 每 天 都 有 机 器 死机 或 者 发 生硬 盘 故 障 ， 这 是 一 
个 常态 ， 也 是 GFS 在 设计 时 就 将 其 考虑 在 内 的 。 因 此 ， 数 据 元 余 备 份 、 
自动 检测 机 器 是 否 还 在 有 效 提供 服务 、 故 障 机 器 的 自动 恢复 等 都 在 GFS 
的 设计 目标 里 。 

其 次 ，GFS 文 件 系 统 所 存储 的 文件 绝 大 多 数 都 是 大 文件 ， 文 件 大 小 
大 部 分 在 100MB 到 几 个 GB 之 间 ， 所 以 系统 的 设计 应 该 针对 这 种 大 文件 
的 读 了 写 操 作 做 出 优化 。 尽 管 GFS 也 支持 小 文件 读 了 写 ， 但 是 不 作为 重 
点 ， 也 不 会 进行 有 针对 性 的 操作 优化 。 

第 三 ， 系 统 中 存在 大 量 的 追加 写 操 作 ， 即 将 新 增 内 容 追 加 到 已 有 
文件 的 末尾， 已 经 写 入 的 内 容 一 般 不 做 更 改 ， 很 少 有 文件 的 随机 写 行 
为 ， 即 指定 已 有 文件 中 间 某 个 位 置 ， 在 这 个 位 置 之 后 写 入 数据 。 

第 四 ， 对 于 数据 读 取 操作 来 说 ， 绝 大 多 数 读 文件 操作 都 是 顺序 
读 ， 少 量 的 操作 是 随机 读 ， 即 按照 数据 在 文件 中 的 顺序 ， 一 次 顺序 读 
入 较 大 量 的 数据 ， 而 不 是 不 断定 位 到 文件 指定 位 置 ， 读 取 少 量 数据 。 

从 下 面 介 绍 内容 可 以 看 出 ，GFS 的 很 多 技术 思路 都 是 为 了 满足 以 上 
的 几 个 设计 目标 而 提出 的 。 


7.2.2 ”GFS 整 体 架 构 


GFS 文 件 系 统 主 要 由 3 个 组 成 部 分 构成 : 唯一 的 主 控 服 务 絮 
(Master) 、 众 多 的 Chunk 服 务 器 和 GFS 客 户 端 。 主 控 服 务 器 主要 做 管 
理工 作 ，Chunk 服 务 器 负责 实际 的 数据 存储 并 响应 GFS 客 户 端的 读 写 
请 求 。 尽 和 绾 GFS 由 上 千 台 机 器 构成 ,但 是 在 应 用 开发 者 眼中 ，GFS 类 似 
于 本 地 的 统一 文件 系统 ， 分 布 式 存储 系统 的 细节 对 应 用 开发 者 来 说 是 
不 可 见 的 。 

在 了 解 GFS 整 体 架 构 及 其 组 成 部 分 交互 流程 前 ， 我 们 首先 了 解 下 
GFS 中 的 文件 系统 及 其 文件 。 在 应 用 开发 者 看 来 ，GFS 文 件 系统 类 似 于 
Linux 文 件 系统 或 者 是 windows 近 作 系 统 提 供 的 文件 系统 ， 即 由 目 了 永和 
存放 在 某 个 目录 下 的 文件 构成 的 树 形 结构 。 在 GFS 系 统 中 ， 这 个 树 形 结 
构 被 称 做 GFS 命 名 空间 ， 同 时 ，GFS 为 应 用 开发 者 提供 了 文件 的 创建 、 
删除 、 读 取 和 写 入 等 常见 的 操作 接口 (API) 。 

上 廊 提 到 ，GFS 中 存储 的 都 是 大 文件 ， 文 件 大 小 达到 几 个 GB 是 很 
各 见 的 。 虽 然 每 个 文件 大 小 各 异 ， 但 是 GFS 在 实际 存储 的 时 候 ， 首 先 会 
将 不 同 大 小 的 文件 切割 成 固定 大 小 的 数据 块 ， 每 一 块 被 称 做 为 一 个 
Chunk， 通 常 将 Chunk 的 大 小 设 定 为 64MB， 这 样 ， 每 个 文件 就 是 由 若 
于 个 国定 大 小 的 Chunk 构 成 的 。 图 7-5 是 这 种 情况 的 示意 图 。 
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图 7-5 ”GFS 的 文件 存储 示意 图 


从 图 7-5 中 可 以 看 出 ， 每 个 GFS 文 件 们 切割 成 固定 大 小 的 Chunk， 
GFS 即 以 Chunk 为 基本 存储 单位 ， 同 一 个 文件 的 不 同 Chunk 可 能 存储 在 


不 同 的 Chunk 服 务 器 上 ， 每 个 Chunk 服 务 器 可 以 存储 很 多 来 自 于 不 同文 
件 的 Chunk 数 据 。 另 外 ， 在 Chunk 服 务 器 内 部 ， 会 对 Chunk 进 一 步 切 
割 ， 将 其 切割 为 更 小 的 数据 块 ， 每 一 块 被 称 做 为 一 个 Block， 这 是 文件 
读 取 的 基本 单位 ， 即 一 次 读 取 至 少 一 个 Block。 图 7-5 也 标明 了 这 种 对 
GFS 文 件 细 粒 度 的 切割 。 总 结 起 来 就 是 :GFS 命 名 空间 由 众多 的 目录 和 
GFS 文 件 构成 ， 一 个 GFS 文 件 由 众多 固定 大 小 的 Chunk 构 成 ， 而 每 个 
Chunk 又 由 更 小 粒度 的 Block 构 成 ，Chunk 是 GFS 中 基本 的 存储 单元 ， 而 
Block 是 基本 的 读 取 单元 。 

图 7-6 显 示 了 GFS 系 统 的 整体 架构 ， 在 这 个 架构 中 ，GFS 主 控 服务 
器 主要 做 管理 工作 ， 不 仅 要 维护 GFS 命 名 空间 ， 还 要 维护 Chunk 的 命名 
空间 ， 之 所 以 如 此 ， 是 因为 在 GFS 系 统 内 部 ， 为 了 能 够 识别 不 同 的 
Chunk， 每 个 Chunk 都 会 赋予 一 个 独一无二 的 编号 ， 所 有 Chunk 的 编号 
构成 了 Chunk 命 名 空间 ，GFS 主 控 服 务 器 还 记录 了 每 个 Chunk 存 储 在 哪 
人 台 Chunk 服 务 器 上 等 信息 。 男 外 ， 因 为 GFS 文 件 被 切割 成 了 Chunk， 
GFS 系 统 内 部 就 需要 维护 文件 名 称 到 其 对 应 的 多 个 Chunk 之 间 的 映射 关 
系 。Chunk 服 务 器 负责 对 Chunk 的 实际 存储 ， 同 时 啊 应 GFS 客 户 问 对 上 自 
己 负 责 的 Chunk 的 读 写 请 求 。 
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图 7-6 ”GFS 整 体 架 构 


在 如 图 7-6 所 示 的 GFS 架 构 下 ， 我 们 来 看 看 GFS 客 户 端 是 如 何 读 取 
数据 的 。 对 于 GEFS 客 户 端 来 说 ， 应 用 开发 者 提交 的 读数 据 请 求 是 : 读 取 
文件 fle， 从 某 个 位 置 P 开 始 读 ， 读 出 大 小 为 工 的 数据 。GFS 系 统 在 接收 
到 这 种 请 求 后 ， 会 在 内 部 做 转换 ， 因 为 Chunk 大 小 是 固定 的 ， 所 以 从 位 
置 P 和 大 小 站 可 以 推算 出 要 读 的 数据 位 于 文件 fe 中 的 第 几 个 Chunk 中 ， 
即 请 求 被 转换 为 < 文件 名 fle，Chunk 序 号 > 的 形式 。 随 后 ，GFS 系 统 将 
这 个 请 求 发 送 给 GFS 主 欣 服 务 右 ， 因 为 GFS 主 探 服 务 右 保存 了 一 些 管理 
信息 ， 通 过 GFS 主 探 服 务 右 可 以 知道 要 读 的 数据 在 哪 台 Chunk 服 务 需 
上 ， 同 时 可 以 将 Chunk 序 号 转换 为 系统 内 唯一 的 Chunk 编 号 ， 并 将 这 两 
个 信息 传 回 到 GFS 客 户 端 。 
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Chunk 服 务 器 建立 联系 ， 并 发 送 要 读 取 的 Chunk 编 号 及 读 取 范 围 ， 
Chunk 服 务 器 在 接收 到 请 求 后 ， 将 请 求 数 据 发 送 给 GFS 客 户 端 ， 如 此 就 
完成 了 一 次 数据 读 取 工作 。 


7.2.3 ”GFS 主 控 服务 器 


Google 的 云 存储 平台 有 一 个 显著 的 特点 ， 束 是 大 量 采 用 主 从 结 
构 ， 即 单一 的 主 控 服务 器 和 众多 的 存储 服务 器 ， 主 控 服 务 器 主要 从 事 
系统 元 数据 的 存储 管理 及 整个 分 布 式 系统 的 管理 ， 比 如 负载 均衡 ， 数 
据 在 存储 服务 器 之 间 迁 移 ， 检 测 新 加 入 的 机 器 及 失效 机 器 等 工作 。 不 
仅 是 GFS， 在 后 续 的 Chubby 和 BigTable 的 介绍 中 也 可 以 看 出 这 一 明显 特 
点 。 采 取 主 从 结构 的 好 处 是 : 因为 整个 系统 存在 一 个 全 局 的 主 控 节 
点 ， 所 以 管理 起 来 相对 简单 。 相 对 应 的 缺点 是 : 因为 主 欣 世 点 是 唯一 
的 ， 很 多 服务 请 求 都 需要 经 过 主 控 服 务 器 ， 所 以 很 容易 成 为 整个 系统 
的 瓶 贷 。 男 外 ， 正 是 因为 只 有 唯一 的 主 控 节点 ， 所 以 可 能 会 存在 单 点 
失效 问题 ， 即 如 来 主 控 服务 胡 瘫 痪 ， 那么 整个 系统 不 可 用 。 

GFS 系 统 是 非常 典型 的 具有 Google 风 格 的 设计 ， 本 节 我 们 介绍 GFS 
主 控 服务 器 所 管理 的 系统 元 数据 及 对 应 的 管理 功能 。 图 7-7 展 示 了 GFS 
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主 控 服 务 器 
图 7-7 GFS 主 控 服务 器 所 管理 的 系统 数据 


1. GFS 命 名 空间 和 Chunk 命 名 空间 : 主要 用 来 对 目录 文件 及 
Chunk 的 增删 改 等 信息 进行 记录 。 

2. 从 文件 到 其 所 属 Chunk 之 间 的 映射 关系 : 因为 一 个 文件 会 被 切 
割 成 众多 Chunk， 所 以 系统 需要 维护 这 种 映射 关系 。 

3. 每 个 Chunk 在 哪 台 Chunk 服 务 器 存储 的 信息 : 在 GFS 系 统 中 ， 
每 个 文件 会 被 切割 成 若干 Chunk， 同 时 每 个 Chunk 会 被 复制 多 个 备份 ， 
并 存储 在 不 同 服务 器 上 ， 之 所 以 如 此 ， 原 因 是 GFS 由 众多 的 普通 PC 构 
成 ， 而 PC 死机 是 经 常事 件 ， 如 果 Chunk 服 务 器 不 可 用 ， 那 么 存储 在 其 
上 的 Chunk 信 息 会 丢失 ， 为 了 避免 这 种 情况 发 生 ， 将 每 个 Chunk 复 制 多 
B, 分别 存储 在 不 同 的 机 器 上 ， 这 样 即 使 发 生机 器 故障 ， 也 可 以 在 其 
他 机 器 上 找到 对 应 的 Chunk 备 份 信息 。 云 存储 平台 必须 提供 这 种 数据 元 
余 来 保证 数据 的 安全 。 在 如 图 7-7 所 示 的 例子 中 ， 每 个 Chunk 保 留 3 个 备 


份 ， 比 如 对 于 Chunkl 来 说 ，Chunk1 和 Chunk1' 是 其 两 个 复制 文件 ， 这 3 
个 Chunk 分 别 存 储 在 不 同 的 Chunk 服 务 器 中 。 

有 了 以 上 3 类 管理 信息 ，GEFS 就 可 以 根据 文件 名 找到 对 应 的 
Chunk， 同 时 知道 每 个 Chunk 存 储 在 哪 台 Chunk 服 务 器 上 ，GFS 客 户 端 程 
序 通 过 GFS 主 控 服务 器 就 可 以 知道 应 该 到 哪里 去 读 写 相应 的 数据 ， 整 
个 系统 就 能 正常 运转 起 来 。 

由 于 管理 数据 非常 重要 ， 所 以 其 安全 性 必须 得 到 保障 ， 如 果 管 理 
数据 丢失 ， 那 么 这 个 GFS 系 统 也 就 不 可 用 。GFS 将 前 两 类 管理 信息 〈 命 
名 空间 及 文件 到 Chunk 了 映射 表 ) 记录 在 系统 日 志文 件 内 ， 并 且 将 这 个 系 
统 日 志 分 别 存储 在 多 人 台 机 硕 上 ， 这 样 陇 避免 了 信息 丢失 的 问题 。 对 于 
第 3 类 管理 数据 〈Chunk 存 储 在 哪 台 服务 器 的 信息 ) ， 主 挖 服务 器 在 启 
动 时 询问 每 个 Chunk 服 务 右 ， 之 后 靠 定期 询问 来 保持 最 新 的 信息 。 
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工作 ， 比 如 创建 新 Chunk 及 其 备份 数据 ， 不 同 Chunk 服 务 器 之 间 的 负载 
均衡 ， 如 果 某 个 Chunk 不 可 用 ， 则 负责 重新 生成 这 个 Chunk 对 应 的 备份 
数据 ， 以 及 垃圾 回收 等 工作 。 

在 对 数据 进行 备份 和 迁移 的 时 候 ，GFS 重 点 考虑 两 个 因素 : 一 个 是 
Chunk 数 据 的 可 用 性 ， 即 如 果 发 现 Chunk 数 据 不 可 用 ， 要 及 时 重新 备 
份 ， 以 免 某 个 Chunk 的 所 有 备份 都 不 可 用 导致 数据 丢失 ; 另外 一 个 要 尽 
可 能 减少 网 络 传输 压力 ， 因 为 在 不 同 机 属 间 传递 数据 ， 因 数据 量 巨 
大 ， 所 以 尽 可 能 减少 网 络 传输 压力 对 于 系统 整体 性 能 表现 很 重要 。 


7.2.4 ”系统 交互 行为 


本 节 我 们 以 GFS 系 统 如 何 完成 写 操 作 来 介绍 系统 中 各 个 组 成 部 分 的 
交互 行为 。 上 文 介绍 过 ， 出 于 系统 可 用 性 考虑 ，GFS 系 统 为 每 份 Chunk 
保留 了 另外 两 个 备份 Chunk， 而 GFS 客 户 端 发 出 写 操 作 请 求 后 ，GFS 系 
统 必须 将 这 个 写 操 作 应 用 到 Chunk 的 所 有 备份 ， 这 样 才能 维护 数据 的 一 
致 性 。 为 了 方便 管理 ，GFS 对 于 多 个 相互 备份 的 Chunk， 从 中 选 出 一 个 
作为 主 备 份 ， 其 他 的 被 称 做 次 级 备份 ， 由 主 备份 决定 次 级 备份 的 数据 
写 入 顺序 (参考 图 7-8) 。 


图 7-8 ”GFS 写 操作 


图 7-8 是 GFS 执 行 写 操作 的 整体 流程 。GFS 客 户 端 首先 和 主 控 服 务 
如 通信 ， 获 知 哪些 Chunk 服 务 器 存储 了 要 写 入 的 Chunk， 包 括 主 备份 和 
两 个 次 级 备份 的 地 址 数据 。 之 后 ，GFS 客 户 端 将 要 写 入 的 数据 推送 给 3 
个 备份 Chunk， 备 份 Chunk 首 先 将 这 些 待 写 入 的 数据 放 在 缓存 中 ， 然 后 
通知 GFS 客 户 端 是 否 接收 成 功 ， 如 果 所 有 的 备份 都 接收 数据 成 功 ，GFS 
客户 端 通知 主 备份 可 以 执行 写 入 操作 。 主 备份 目 己 将 缓存 的 数据 写 入 
Chunk 中 ， 通 知 次 级 备份 按照 指定 顺序 写 入 数据 ， 次 级 备份 写 完 后 答复 
主 备份 写 入 成 功 ， 主 备份 会 通知 GFS 客 户 端 这 次 写 操作 成 功 完成 。 

上 述 的 写 入 过 程 都 假设 每 个 步骤 成 功 完 成 ， 实 际 上 ， 每 个 步骤 都 
有 可 能 出 现 问题 ，GFS 系 统 针 对 这 些 可 能 问题 都 有 相应 的 处 理 措 施 ， 以 
保证 数据 的 完整 性 和 可 用 性 。 


7.3 Chubby ik% 


Chubby 是 Google 公 司 研 发 的 针对 分 布 式 系统 资源 管理 的 粗 粒 度 锁 
服务 ， 一 个 Chubby 实 例 大 约 可 以 负责 1 万 台 4 核 CPU 机 喜之 间 对 资源 的 
协同 管理 。 这 种 锁 服 务 主要 的 功能 是 让 众多 客户 端 程序 进行 相互 之 间 
的 同步 ， 并 对 系统 环境 或 者 资源 达成 一 致 认 知 。 


在 客户 端 程序 看 来 ，Chubby 好 像 是 一 个 类 似 于 文件 系统 的 目 孙 和 
文件 管理 系统 ， 并 在 此 基础 上 提供 针对 目录 和 文件 的 锁 服 务 ，Chubby 
的 文件 主要 存储 一 些 管 理 信息 或 者 基础 数据 ，Chubby 要 求 对 文件 内 容 
一 次 性 全 部 读 完 或 者 写 入 ， 这 是 为 了 尽 可 能 抑制 客户 端 程序 写 入 大 量 
数据 到 文件 中 ， 因 为 Chubby 的 目的 不 是 数据 存储 ， 而 是 对 资源 的 同步 
管理 ， 所 以 不 推荐 在 文件 中 保存 大 量 数据 。 同 时 ，Chubby 还 提供 了 文 
件 内 容 更 改 后 的 通知 机 制 ， 客 户 端 可 以 订阅 某 个 文件 ， 当 文件 内 容 发 
生变 化 或 者 一 些 系统 环境 发 生变 化 ，Chubby 会 主动 通知 这 些 订阅 该 文 
件 的 客户 端 ， 以 使 得 这 种 信息 变化 快速 传播 。 

Chubby 的 理论 基础 是 Paxos 一 致 性 协议 ，Paxos 是 在 完全 分 布 环 境 
下 ， 不 同 客户 端 能 够 通过 交互 通信 并 投票 ， 对 于 某 个 决定 达成 一 致 的 
算法 。Chubby 以 此 为 基础 ， 但 是 也 做 了 改造 ，Paxos 是 完全 分 布 的 ， 没 
有 中 心 管理 下 点 ， 所 以 要 通过 多 轮 通信 和 投票 来 达成 最 终 一 致 ， 所 以 
效率 会 比较 低 ，Chubby 出 于 系统 效率 考虑 ， 增 加 了 一 些 中 心 管理 策 
格 ， 在 达到 同一 目标 的 情况 下 改善 了 系统 效率 。 

在 GFS 中 ，Chubby 被 用 来 选举 哪 台 服务 器 作为 主 控 服 务 右 ， 在 
BigTable 中 ， 则 有 很 多 功能 : 选举 主 欣 服 务 右 ， 主 欣 服 务 右 用 此 服务 来 
发 现 其 他 数据 存储 服务 器 ， 客 户 端 程序 根据 Chubby 来 找到 主 控 服 务 器 
及 在 Chubby 文 件 中 存储 部 分 管理 数据 等 ， 读 者 在 阅读 后 续 章 节 时 可 以 
体会 到 Chubby 的 具体 功能 和 作用 。 

Chubby 服 务 由 多 个 Chubby 单 元 构成 ， 每 个 Chubby 单 元 一 般 包含 5 
台 服 务 硕 ， 通 过 选举 的 方式 推举 其 中 一 台 作 为 主 控 服 务 右 ， 其 他 4 人 台 作 
为 备份 服务 硕 ， 之 所 以 这 样 ， 主 要 是 防止 单 台 服务 右 死 机 后 不 能 提供 
服务 ， 多 人 台 机 硕 可 以 在 某 台 主 控 服 务 器 不 能 提供 服务 时 ， 由 另外 一 台 
机 器 接管 (参考 图 7-9) 。 


Chubby 单元 


图 7-9 Chubby 体 系 结构 


主 控 服 务 右 由 所 有 机 需 选 举 推 出 ， 但 是 是 有 任期 的 ， 在 一 段 时 间 
内 由 选举 出 的 服务 器 充当 主 控 服 务 器 ， 当 任期 期 满 后 ， 会 再 次 投票 选 
举 出 新 的 主 控 服 务 器 。 

所 有 客户 端 对 Chubby 的 读 写 请 求 都 由 主 控 服务 器 来 负责 ， 主 控 
服务 需 遇 到 写 请 求 后 ， 会 更 改 维护 的 管理 数据 ， 而 其 他 所 有 备份 服务 
偶 只 是 同步 管理 数据 到 本 地 ， 保 持 数 据 和 主 探 服 务 硕 一致， 当 备份 机 
句 接 收 到 请 求 时 ， 会 将 请 求 转发 给 主 控 服务 器 ， 通 过 这 种 集中 式 管 
理 ， 容 易 维 护 管理 数据 的 一 致 性 。 

Chubby 向 外 提供 了 类 似 于 简单 文件 系统 的 接口 ， 树 形 结 构 的 层级 
目录 和 文件 构成 了 Chubby 管 理 的 数据 (参考 图 7-10) 。 比 如 某 个 目录 
节点 的 名 称 为 : LS/foo/wombat/punch， 其 中 LS 是 整个 系统 中 最 高 层级 
的 目录 ， 代 表 锁 服务 (Lock Service) ，foo 是 某 个 Chubby 单 元 的 名 称 ， 
而 wombat/punch 则 是 这 个 Chubby 单 元 管理 的 树 形 目录 结构 。 


i 
Chubby 单 元 2 


图 7-10 ”Chubby 的 树 形 目录 结构 


Chubby 在 这 个 树 形 目 孙 结 构 中 提供 了 很 多 管理 功能 ， 比 如 针对 某 
个 目录 或 者 文件 的 加 锁 服 务 ， 针 对 目录 或 者 文件 的 访问 权限 控制 ， 文 
件 内 容 存 取 及 事件 通知 机 制 。 通 过 这 种 结构 ， 可 以 有 效 实现 分 布 式 系 
统 中 的 同步 协同 和 资源 管理 功能 。 


7.4 BigTable 


BigTable 是 一 种 针对 海量 结构 化 或 者 半 结 构 化 数据 的 存储 模型 ， 在 
Google 的 云 存 储 体系 中 处 于 核心 地 位 ， 起 到 了 承上启下 的 作用 。GFS 是 
一 个 分 布 式 海量 文件 管理 系统 ， 对 于 数据 格式 没有 任何 假定 ， 而 
BigTable 以 GFS 为 基础 ， 建 立 了 数据 的 结构 化 解释 ， 对 于 很 多 实际 应 用 
来 说 ， 数 据 都 是 有 一 定格 式 的， 在 应 用 开发 者 看 来 ，BigTable 建 立 的 数 
据 模型 与 应 用 更 贴近 。MegaStore 存 储 模 型 和 Percolator 计 算 模型 都 是 建 
ee 。 从 此 可 看 出 ，BigTable 在 其 中 的 
地 位 之 重要 。 


7.4.1 ”BigTable 的 数据 模型 


所 谓 数 据 模型 ， 束 古 说 在 应 用 开发 者 眼 里 BigTable 是 怎样 的 一 种 结 
构 。BigTable 本 质 上 有 是 一 个 三 维 的 映射 表 ， 其 最 基础 的 存储 单元 是 由 


( 行 主键 、 列 主键 、 时 间 ) 三 维 主键 (Key) 所 定位 的 。 
图 7-11 展 示 了 一 个 被 称 为 WebTable 的 具体 表格 ， 里 面 存 储 了 互联 网 
的 网 页 。 表 中 每 一 行 存 储 了 某 个 网 页 的 相关 信息 ， 比 如 网 页 内 容 、 网 
页 MetaData 元 信息 、 指 向 这 个 网 页 的 链接 销 文字 等 ， 每 行 以 网 页 的 逆 
转 URL 作 为 这 一 行 的 主键 。BigTable 要 求 每 行 的 主键 一 定 是 字符 串 的 形 


式 ， 而 且 在 存储 表格 数据 时 ， 按 照 行 主键 的 字母 大 小 顺序 排序 存储 。 


"contents:” "anchor:cnnsi.com"  "“anchor:my.look.ca" 


"com.cnn.www" -p> 


| 
图 7-11 ”BigTable 数 据 模型 : WebTable 


BigTable 中 的 列 主 键 包含 两 级 ， 其 中 第 1 级 被 称 为 列 家 族 (Column 
Families) ， 第 2 级 被 称 为 列 描述 符 (Qualifier) ， 两 者 共同 组 成 一 个 列 
的 主键 ， 即 : 

列 主键 = 列 家 族 : 列 摘 述 符 

以 WebTable 表 为 例 ， 链 接 销 文 字 组 成 一 个 列 家 族 anchor， 而 每 个 网 
页 的 UREL 地 址 作为 列 描述 符 。anchor: cnnsi.com 这 个 列 主键 代表 的 含义 
是 : 这 一 列 存储 的 是 cnnsi.com 这 个 网 页 指 癌 其 他 页 面 的 链接 销 文 字 。 

BigTable 内 可 以 保留 同一 信息 随 着 时 间 变 化 的 不 同 版 本 ， 这 个 不 同 
版 本 由 时 间 维 度 来 进行 表达 。 比 如 以 行 主键 com.cnn.www 和 列 主键 
anchor: cnnsi.com 定 位 的 信息 ， 代 表 了 网 页 www.cnnsi.com 指 癌 
www.cnn.com 的 链接 销 文 字 ， 随 着 时 间 的 变化 ， 这 个 链接 销 文 字 也 可 能 
会 不 断 更 改 ， 所 以 可 以 存储 多 个 更 改版 本 ， 比 如 例子 中 显示 的 T9 这 个 
时 间 的 销 文 字 内 容 为 CNN， 此 外 还 可 以 保留 其 他 时 间 的 销 文 字 信 筷 。 

BigTable 的 数据 模型 粗 看 很 像 关系 型 数据 库 的 关系 模型 ， 但 是 两 者 
有 重大 差别 ， 关 系 型 数据 库 的 列 在 设计 表格 之 初 就 已 经 指定 ， 而 
BigTable 是 可 以 随时 对 表格 的 列 进行 增删 的 ， 而 且 每 行 只 存储 列 内 容 不 
为 空 的 数据 ， 这 被 称 做 模式 自由 型 (Schema Free) 数据 库 。 

BigTable 是 个 分 布 式 的 海量 存储 系统 ， 成 百 上 千 台 机 器 为 应 用 的 相 
天 表格 提供 存 取 服务 。 在 实际 存储 表格 信息 时 ， 会 将 表格 按照 行 主键 
进行 切割 ， 将 一 段 相 邻 的 行 主 键 组 成 的 若干 行 数据 作为 一 个 存储 单 
元 ， 这 被 称 为 一 个 子 表 (Tablet) ， 表 格 由 子 表 构成 ， 而 每 个 子 表 的 数 
据 交 由 子 表 服务 器 来 进行 管理 。 图 7-12 是 这 种 情形 的 形象 说 明 。 
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图 7-12 BigTable 表 格 的 子 表 


BigTable 为 应 用 开发 者 提供 了 API， 利 用 这 些 API 可 以 创建 或 者 删除 
表格 ， 设 定 表格 的 列 ， 揪 入 删除 数据 ， 以 行为 单位 来 查询 相关 数据 等 
操作 。 另 外 ，BigTable 提 供 针 对 行 数 据 的 事务 操作 ， 而 不 同 记 录 之 间 不 
提供 事务 保证 。 


7.4.2 ”BigTable 整 体 结构 


上 一 小 世人 介绍 了 BigTable 的 数据 模型 ， 在 应 用 开发 者 看 来 ， 
BigTable 就 是 由 很 多 类 似 于 WebTable 这 样 的 三 维 表格 共同 组 成 的 一 个 系 
统 ， 应 用 开发 者 只 需要 考虑 具体 应 用 包含 哪些 表格 ， 每 个 表格 对 应 包 
含 哪 些 列 ， 然 后 就 可 以 在 相应 的 表格 内 以 行为 单位 增删 内 容 。 至 于 具 
体 表 格 是 如 何在 内 部 存储 的 则 交 由 BigTable 来 进行 管理 。 

图 7-13 是 BigTable 的 整体 结构 示意 图 ， 其 中 主要 包含 : EPS a 
(Master Server) 、 子 表 服 务 器 (Tablet Server) 和 客户 端 程序 
(Client) 。 每 个 表格 将 若干 连续 的 行 数据 划分 为 一 个 子 表 
(Tablet) ， 这 样 表格 的 数据 就 会 被 分 解 为 一 些 子 表 。 子 表 服 务 器 主要 


负责 子 表 的 数据 存储 和 管理 ， 同 时 需要 响应 客户 端 程序 的 读 写 请 
求 ， 其 负责 管理 的 子 表 以 GFS 文 件 的 形式 存在 ，BigTable 内 部 将 这 种 文 
件 称 之 为 SSTable， 一 个 子 表 就 是 由 子 表 服 务 器 磁盘 中 存储 的 知 干 个 
SSTable 文 件 组 成 的 ; EPIRA ae i aS ASE LE, ATE 
ISSAC > PAAR ae HY Hl BEY OS + PAR ae ROC o Ae Pg RE 
PW AAD Ie ORE, EPA RAR aE TIE CE, RIS 


图 7-13 ”BigTable 的 整体 结构 示意 图 
7.4.3 ”BigTable 的 管理 数据 


对 于 具体 应 用 来 说 ， 可 以 根据 需要 在 BigTable 系 统 中 创建 自己 的 表 
格 ， 每 个 表格 都 会 被 分 割 成 看 王子 表 ， 并 存储 在 不 同 的 子 表 服 务 需 


中 。 那 么 ，BigTable 如 何 知道 每 个 子 表 存 储 在 哪 台 子 表 服务 器 中 呢 ? 要 
知道 这 一 点 ， 需 要 维护 一 些 特殊 的 管理 数据 。 

BigTable 利 用 Chubby 系 统 和 一 个 被 称 为 元 数据 表 (MetaData 
Table) 的 特殊 表格 来 共同 维护 系统 管理 数据 (参见 图 7-14) 。 元 数据 
表 是 BigTable 中 一 个 起 着 特殊 作用 的 表 ， 这 个 表格 的 每 一 行 记载 了 整个 
BigTable 中 某 个 具体 子 表 存 储 在 哪 台子 表 服 务 右 上 等 管理 信息 ， 但 是 它 
一 样 也 会 被 切割 成 在 干 子 表 并 存储 在 不 同 的 子 表 服 务 锅 中 。 这 个 表 的 
第 1 个 于 表 被 称 为 Root 于 表 ， 用 来 记录 元 数据 表 目 身 除 Root 于 表 外 其 他 
子 表 的 位 置信 息 ， 因 为 元 数据 表 的 子 表 也 是 分 布 在 不 同 机 器 上 的 ， 通 
过 Root 子 表 的 记录 束 可 以 找到 元 数据 表 中 其 他 子 表 存 储 在 哪 台 机 器 
上 ， 即 通过 Root 子 表 可 以 找到 完整 的 元 数据 表 。 


图 7-14 利用 Chubby 和 元 数据 表 来 共同 维护 系统 管理 数据 


元 数据 表 中 其 他 子 表 的 每 一 行 ， 则 记录 了 BigTable 中 应 用 程序 生成 
的 表格 (用 户 表 ) 某 个 子 表 的 管理 数据 。 其 中 ， 每 一 行 以 用 户 表 表 名 
和 在 这 个 了 于 表 内 存储 的 最 后 一 个 行 主键 共同 构成 元 数据 表 内 此 条 记录 
的 行 主键 ， 在 记 杂 行 的 数据 里 则 存储 了 这 个 子 表 对 应 的 子 表 服 务 紫 等 
其 他 管理 信息 。 而 Chubby 中 某 个 特殊 文件 则 指出 了 Root 子 表 所 在 的 子 
表 服 务 器 地 址 。 这 样 ，Chubby 文 件 、Root 子 表 及 元 数据 表 中 的 其 他 子 
表 构 成 了 三 级 查询 结构 ， 通 过 这 个 层级 结构 束 可 以 定位 具体 应 用 的 蘑 
个 子 表 放 置 在 哪 台子 表 服 务 禹 上 ° 

图 7-15 是 这 种 三 级 查询 结构 的 示意 图 ， 假 设 某 个 客户 端 程序 需要 查 
找 用 户 表 的 某 行 记录 ， 首 先 读 取 Chubby 系 统 中 的 特殊 文件 ， 从 这 个 文 
件 可 以 得 知 Root 于 表 的 所 在 位 置 ， 然 后 根据 Root 子 表 获 知 元 数据 表 其 


他 子 表 所 在 位 置 ， 其 他 子 表 每 一 行 的 行 主键 是 由 用 户 表 表 名 和 对 应 子 
表 最 后 一 行 的 行 主键 共 同 构 成 的 ， 所 以 通过 和 要 查询 的 用 户 表 及 其 答 
查 记录 的 行 主 链 比 较 ， 就 可 以 知道 古 哪 人 台子 表 服 务 器 存储 着 这 条 记 
孙 ， 之 后 客户 端 程 序 将 这 些 信息 缓存 在 本 地 ， 并 直接 和 子 表 服 务 器 通 
信 来 读 取 对 应 的 数据 。 
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图 7-15 “三 级 查询 结构 
7.4.4” 主 控 服 务 器 (Master Server) 


主 控 服务 器 在 BigTable 中 专门 负责 管理 工作 ， 比 如 上 自动 发 现 是 否 有 
新 的 子 表 服务 器 加 入 ， 是 否 有 子 表 服务 器 因为 各 种 故障 原因 不 能 提供 
服务 ， 是 否 有 些 子 表 服务 絮 人 负载 过 高 等 情况 ， 并 在 各 种 情况 下 人 负责 子 
表 服 务 器 之 间 的 负载 均衡 ， 保 证 每 个 子 表 服 务 器 的 负载 都 是 合理 的 。 

当主 控 服 务 需 刚 被 启动 时 ， 需 要 获知 子 表 的 分 配 情况 ， 图 7-16 是 主 
控 服 务 器 启动 时 的 运行 流程 。 
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W716 主 控 服 务 器 启动 时 的 运行 流程 


Chubby 在 BigTable 的 正常 运转 过 程 中 起 了 很 大 的 作用 ， 不 但 在 其 中 
存储 了 最 基础 的 管理 数据 ， 还 提供 了 粗 粒 度 的 加 锁 服 务 。 在 Chubby 的 
树 形 结构 中 ， 有 一 个 特殊 的 Servers 目 录 ， 每 个 子 表 服务 器 在 该 目录 下 
生成 对 应 的 文件 ， 记 载 了 这 个 子 表 服 务 器 的 人 P 地 址 等 管理 信息 。 当 主 
控 服 务 器 启动 时 ， 首 先 在 Chubby 中 获得 一 个 Master 锁 ， 这 样 可 以 阻止 
其 他 主 控 服务 器 再 次 启动， 避免 整个 系统 中 出 现 多 个 管理 和 点 。 之 
后 ， 主 控 服 务 器 读 取 Servers 目 录 ， 从 该 目录 下 的 文件 可 以 获得 每 个 子 
表 服 务 器 的 地 址 信息 。 获 得 地 址 信息 后 ， 在 之 后 的 管理 过 程 中 ， 主 控 
服务 器 就 可 以 直接 和 子 表 服 务 器 进行 通信 。 在 启动 时 ， 主 控 服 务 器 和 
子 表 服 务 句 通信 ， 获 知 每 个 子 表 服务 器 存储 了 哪些 子 表 并 记录 在 内 存 
管理 数据 中 。 之 后 ， 主 欣 服 务 右 从 Chubby 的 rootT 点 可 以 读 取 MetaData 
元 数据 ， 这 里 记载 了 系统 中 所 有 子 表 的 信息 ; 通过 MetaData 和 子 表 服 
务 器 反馈 的 信息 ， 两 者 对 比 ， 可 能 会 发 现 有 一 部 分 子 表 在 MetaData 


中 ， 但 是 没有 子 表 服务 器 负责 存储 ， 说 明 这 些 子 表 是 未 获得 分 配 的 内 
容 ， 所 以 将 这 些 子 表 信 息 加 入 一 个 未 分 配子 表 集 合 中 ， 之 后 会 在 适当 
的 时 机 ， 将 这 些 未 分 配子 表 分 配给 负载 较 轻 的 于 表 服务 姨 。 

当 有 新 的 子 表 服务 器 加 入 BigTable 系 统 中 ， 这 个 子 表 服 务 器 会 在 
Chubby 的 Servers 目 如 下 生成 对 应 的 文件 ， 主 控 服 务 絮 通过 周期 性 地 扫 
描 Servers 目 录 下 的 文件 可 以 很 快 获知 有 新 的 子 表 服 务 嚣 加入， 之 后 可 
以 将 高 负载 的 其 他 子 表 服务 器 的 部 分 数据 ， 或 者 是 未 分 配子 表 中 的 数 
据 交 由 新 加 入 的 服务 右 来 负责 管理 。 

主 控 服务 器 会 周期 性 地 询问 子 表 服 务 器 的 状态 ， 当 无 法 和 子 表 服 
务 器 取得 联系 后 ， 会 将 Chubby 的 Servers 目 录 下 对 应 的 文件 删除 ， 并 将 
这 个 子 表 服 务 此 人 负责 管理 的 子 表 放 入 未 分 配子 表 中 ， 之 后 会 将 这 些 于 
表 分 配 到 有 空 内 空间 的 子 表 服 务 占 中 。 


7.4.5” 子 表 服 务 器 (Tablet Server) 


于 表 服 务 右 是 BigTable 系 统 中 用 来 存储 和 管理 子 表 数 据 的 ， 从 具体 
HERH, PHAR ae SCH LA BBE: 

存储 管理 子 表 数 据 ， 包 括 子 表 存 储 、 子 表 恢 复 、 子 表 分 裂 、 子 
表 合 并 等 。 

啊 应 客户 端 程序 对 子 表 的 写 请 求 。 

啊 应 客户 端 程序 对 子 表 的 读 请 求 。 


1. 更 新 子 表 数 据 


对 子 表 内 容 的 更 新 包括 插入 或 删除 行 数据 ， 或 者 插入 删除 某 行 的 
某 个 列 数据 等 操作 。 

图 7-17 是 子 表 服务 器 响应 客户 端 程序 更 新 操作 的 流程 图 ， 当 子 表 服 
务 需 接收 到 数据 更 新 请 求 时 ， 首 和 匈 将 更 新 命令 记 入 CommitLog 文 件 
中 ， 之 后 将 更 新 数据 写 入 内 存 中 的 MemTable 结 构 中 ， 当 MemTable 里 容 
纳 的 数据 超过 设 定 大 小 时 ， 将 内 容 输 出 到 GFS 文 件 系统 中 ， 形 成 一 个 新 
的 SSTable 文 件 。 一 个 具体 的 子 表 数 据 束 是 由 知 干 个 陆续 从 MemTable 产 
生 的 SSTable 文 件 构成 的 。 


图 7-17 更 新 操作 


在 BigTable 系 统 中 ， 所 有 对 子 表 的 更 新 操作 都 是 在 内 存 中 完成 的 ， 
MemTable 即 是 内 存 中 开辟 的 缓冲 区 ， 用 来 容纳 子 表 的 数据 更 新 内 容 。 
对 于 一 个 分 布 式 存储 系统 来 说 ， 系 统 故障 经 常 发 生 。 假 设 在 MemTable 
还 没有 将 内 存 更 新 内 容 输出 到 SSTable 的 时 候 ， 子 表 服 务 器 宕 机 ， 那 么 
MemTable 的 数据 会 丢失 。CommitLog 的 引入 就 是 为 了 防止 这 种 情况 发 
生 ， 因 为 在 写 入 MemTable 之 前 的 所 有 操作 都 在 CommitLog 中 记录 ， 即 
one ， 也 可 以 根据 CommitLog 的 命令 再 次 恢复 MemTable 

S AY © 

SSTable 是 BigTable 内 部 用 来 存储 数据 的 文件 ， 其 具有 特定 的 格 
式 。 图 7-18 体 现 了 SSTable 的 格式 信息 。 每 个 SSTable 划 分 为 两 块 ， 数据 
存储 区 和 索引 区 。 数 据 存储 区 用 来 存储 具体 的 数据 ， 本 身 又 被 划分 成 
小 的 数据 块 ， 每 次 读 取 的 单位 束 是 一 个 数据 块 。 索 引 区 记载 7 每 个 数 
据 块 存 储 的 行 主键 范围 及 其 在 SSTable 中 的 位 置信 息 。 当 BigTable 打 开 
一 个 SSTable 文 件 的 时 候 ， 系 统 将 索引 区 加 载 入 内 存 ， 当 要 读 取 一 个 数 
据 块 时 ， 首 先 在 内 存 中 的 数据 块 索引 中 利用 二 分 查找 ， 快 速 定 位 某 条 
C eee 之 后 就 可 以 根据 位 置信 息 一 次 性 读 取 
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图 7-18 ”SSTable 结 构 


2. 读 取 子 表 数据 


由 上 面 叙 述 可 知 ， 一 个 子 表 是 由 内 存 中 的 MemTable 和 GFS 中 存储 
的 若干 SSTable 文 件 构成 的 。 在 MemTable 和 SSTable 中 存储 的 数据 都 是 
按照 行 主键 的 字母 顺序 排序 的 ， 所 以 很 容易 将 这 些 文件 看 做 一 个 按照 
行 主键 排 好 序 的 整体 序列 结构 ， 而 读 取 操作 就 是 首先 查找 数据 的 存储 
位 置 ， 如 果 找 到 则 读 出 数据 。 由 于 SSTable 在 GFS 文 件 系统 中 ， 为 了 加 
快 查找 速度 ，BigTable 除 了 块 索引 外 ， 还 引入 了 布 隆 过 滤器 (Bloom 
Filter) 算法 ， 这 种 算法 只 占用 少量 内 存 ， 就 可 以 快速 判断 某 个 SSTable 
文件 是 否 包含 要 读 取 数据 的 主键 ， 这 样 对 于 很 多 读 操 作 ， 避 免 了 在 磁 
盘 中 查找 ， 加 快 读 取 速度 (参考 图 7-19) ° 


3. SSTable 合 并 


如 果 SSTable 数 量 过 多 ， 会 影响 系统 读 取 效率 ， 所 以 子 表 服 务 器 会 
周期 性 地 对 子 表 的 SSTable 和 MemTable 进 行 合并 。 根 据 合 并 规模 的 差 
异 ， 存 在 3 种 不 同类 型 的 合并 策略 : MA (Minor Compaction) 、 部 
分 合 a (Merging Compaction) 及 主 合并 (Major Compaction) (参考 
17-20) ° 
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图 7-20 SSTable 合 并 


当 MemTable 写 入 数据 过 多 ， 会 将 内 存 中 的 数据 写 入 磁盘 中 一 个 新 
的 SSTable 中 ， 这 个 过 程 被 称 为 微 合 并 。 这 种 合并 有 两 种 功能 : 首先 ， 
可 以 减少 内 存 消耗 量 ， 其 次 ， 由 于 MemTable 内 数据 量 不 会 无 限制 增 
长 ， 即 使 这 个 子 表 服务 器 宕 机 后 重启 ， 系 统 根 据 CommitLog 恢 复 
MemTable 的 速度 也 会 较 快 。 

把 MemTable 的 内 容 和 部 分 SSTable 合 并 的 过 程 叫做 部 分 合并 ， 通 过 
部 分 合并 ， 可 以 减少 SSTable 的 数量 ， 增 加 读 操 作 的 效率 。 而 将 
MemTable 和 所 有 SSTable 进 行 合并 的 过 程 被 称 为 主 合 并 ， 这 种 合并 周期 
的 执行 ， 使 得 所 有 子 表 数据 集中 到 一 个 SSTable 中 。 同 时 ， 在 合并 过 程 
中 ， 会 将 已 经 标记 为 “删除 * 的 记录 抛弃 ， 有 效 回收 存储 资源 。 


4. 子 表 恢 复 (Tablet Recovery) 
当 子 表 服 务 器 死机 后 ，BigTable 提 供 了 完善 的 子 表 恢复 机 制 (参考 


图 7-21) 。 当 死机 的 子 表 服 务 器 重新 启动 后 ， 会 从 元 数据 子 表 
(MetaData) 中 读 取 管理 信息 ， 包 括 子 表 服 务 器 负责 管理 的 子 表 对 应 


哪些 SSTable 文 件 ， 以 及 CommitLog 对 应 的 恢复 点 (Redo Point) 。 根 据 
CommitLog 恢 复 点 ， 子 表 服 务 絮 可 以 找到 CommitLog 的 对 应 位 置 ， 恢 复 
从 这 个 位 置 之 后 的 所 有 更 新 行为 到 MemTable 中 ， 这 样 就 完成 了 
MemTable 的 重建 工作 。 从 元 数据 子 表 中 读 取 到 对 应 的 SSTable 文 件 后 ， 

子 表 服 务 器 将 对 应 的 SSTable 的 块 索引 读 入 内 存 ， 这 样 束 能 够 完全 恢复 
到 死机 前 的 状态 。 从 这 个 过 程 可 以 看 出 CommitLog 的 具体 功能 。 
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图 7-21 BigTable 提 供 的 子 表 恢 复 机 制 

除了 上 述 功 能 之 外 ， 子 表 服 务 器 还 负责 子 表 分 裂 的 管理 ， 当 某 个 
子 表 存 储 的 数据 量 过 大 ， 会 将 其 分 裂 为 两 个 均等 大 小 的 子 表 ， 并 将 相 
应 的 管理 信息 传递 到 元 数据 子 表 中 记录 ， 之 后 的 数据 更 新 及 读 取 分 别 
在 相应 的 子 表 中 进行 。 


7.5 “Megastore 系 统 


Google 的 绝 大 多 数 应 用 是 建立 在 GFS 文 件 系 统 和 BigTable 存 储 系统 
之 上 的 ， 从 前 述 草 市 天 于 这 两 个 存储 系统 的 运行 机 制 可 以 看 出 ， 这 套 


系统 比较 适合 做 大 量 数 据 的 后 台 计 算 ， 对 于 实时 交互 的 应 用 场景 来 
说 ， 并 非 这 套 系 统 的 优势 应 用 场合 。 

时 移 世 变 ， 目 前 大 多 数 互 联网 应 用 中 相当 重要 的 一 部 分 需要 与 用 
户 进行 实时 交互 ， 如 何 针 对 这 些 应 用 的 特点 构造 海量 存储 系统 ?” 这 是 
非常 具有 挑战 性 的 问题 。Megastore 即 是 Google 针 对 这 类 应 用 上 自行 研发 
的 海量 存储 系统 。 

我 们 首先 看 下 这 类 应 用 本 吴 对 存储 系统 有 哪些 特殊 的 要 求 。 首 
先 ， 由 于 数据 量 太 大 ， 需 要 系统 具有 高 可 扩展 性 (Scalability) ， 这 对 
海量 存储 系统 来 说 是 一 项 非常 基础 的 要 求 。 其 次 ， 对 互联 网 应 用 来 
说 ， 推 出 时 间 早 晚 其 最 终 的 结局 可 能 差异 很 大 ， 所 以 存储 系统 应 该 文 
持 应 用 的 快速 开发 和 部 署 。 再 次 ， 因 为 是 实时 与 用 户 交 互 ， 所 以 数据 
读 二 写 要 求 满足 高 速度 低 延 迟 的 要 求 。 另 外 ， 存 储 系 统 应 该 能 够 保证 
数据 的 一 致 性 要 求 ， 否 则 用 户 写 入 数据 后 看 到 的 仍然 是 过 时 的 老 数 
据 ， 其 体验 可 想 而 知 。 同 时 ， 系 统 要 具有 高 可 用 性 (Availability) ， 即 
使 服务 提供 方 内 部 出 现 大 规模 故障 ， 也 应 该 保证 用 户 仍然 可 用 服务 。 

上 面 这 些 对 存储 系统 的 要 求 有 些 是 有 内 在 矛盾 的 ， 在 所 有 方面 做 
到 最 优 不 太 可 能 ， 问 题 就 成 为 了 : 如 何 提供 一 种 折 中 方案 ， 能 够 在 几 
者 之 间 取 得 平衡 。 

目前 解决 大 规模 数据 存储 有 两 种 不 同 的 解决 方案 ， 一 种 是 传统 的 
数据 库 方式 ， 这 种 方法 提供 你 证 数据 一 致 性 的 接口 ， 而 且 开发 痢 使 用 
起 来 非常 答 单 ， 开 发 成 本 低 ， 但 是 这 种 方法 可 扩展 性 不 高 ， 面 对 超大 
规模 数据 无 能 为 力 。 另 外 一 个 方式 是 NoSQL 的 方法 ，BigTable 残 是 一 种 
典型 的 NoSQL 技 术 方 案 ， 这 种 方案 可 扩展 性 强 、 可 用 性 高 ， 能 够 处 理 
超大 规模 数据 存储 ， 但 是 往往 无 法 保证 数据 的 强 一 致 性 ， 比 如 BigTable 
只 能 对 行 数据 提供 事务 文 持 ， 对 跨行 跨 表 操作 的 数据 一 任性 无 法 保 


证 


Megastore 考 虑 到 需求 的 矛盾 性 及 目前 数据 库 方案 和 NoSQL 方 案 各 
目的 优 缺 点 ， 布 望 能 够 找到 一 条 折 中 的 技术 路 线 ， 既 能 够 提供 NoSQL 
方案 的 高 扩展 性 ， 又 能 够 吸取 数据 库 方 案 的 强 数 据 一 致 性 保证 。 

Megastore 的 基本 思路 是 : 将 大 规模 数据 进行 细 粒 度 切 割 ， 切 分 成 
若干 实体 群 组 (Entity Group) ， 在 实体 群 组 内 提供 满足 ACID 语义 的 强 
数据 一 致 性 服务 ， 但 是 在 实体 群 组 之 间 捉 供 相 对 弱 些 的 数据 一 致 性 保 
证 。 利 用 改造 鸭 Paxos 协 议 来 将 数据 分 布 到 多 个 数据 中 心 ， 这 样 同 时 满 
足 了 数据 请 求 的 高 速度 低 延 迟 及 高 可 用 性 ， 可 用 性 是 通过 将 数据 分 布 
到 不 同 数据 中 心 获得 的 ， 而 数据 请 求 的 高 速度 低 延 迟 则 是 靠 优 化 后 的 
Paxos 协 议 来 保证 的 。 


7.5.1 ”实体 群 组 切 分 


图 7-22 是 实体 群 组 切 分 及 其 在 各 个 数据 中 心 分 布 的 示意 图 ， 
Megastore 将 数据 切割 成 很 多 细 粒 度 的 实体 群 组 ， 每 个 实体 群 组 会 同时 
分 布 到 不 同 的 数据 中 心 ，Megastore 利 用 Paxos 协 议 保证 实体 群 组 内 数据 
具有 ACID 语义 的 强 一致 性 ， 不 同 实体 群 组 则 提供 了 较 弱 的 数据 一 致 
性 。 在 同一 个 数据 中 心 内 ，Megastore 使 用 BigTable 来 作为 数据 存储 系 
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图 7-22 实体 群 组 切 分 及 其 在 各 个 数据 中 心 分 布 的 示意 图 


实体 群 组 之 间 采 用 消息 队列 的 方式 完成 跨 群 组 的 事务 操作 ， 图 7-23 
是 这 种 机 制 的 说 明 ， 实 体 群 组 1 发 出 一 个 消息 ， 将 事务 追加 到 消息 队列 
中 ， 实 体 群 组 2 接收 消息 队列 中 自己 对 应 的 消息 事务 并 对 数据 做 出 更 
改 。Megastore 对 跨 群 组 的 事务 采用 了 两 阶段 提交 的 方式 (Two Phrase 
Commit) ， 这 种 方法 相对 耗 时 ， 但 是 由 于 大 部 分 数据 更 新 操作 发 生 在 
实体 群 组 内 部 ， 所 以 从 系统 总 体 效 率 来 说 问题 不 大 。 另 外 ，Megastore 
还 提供 了 实体 群 组 内 的 局 部 索引 和 全 局 范围 的 全 局 索引 。 


全 局 索引 


图 7-23 ”实体 群 组 间 通 信 


大 部 分 应 用 都 可 以 找到 很 自然 的 实体 群 组 切 分 方法 ， 以 电子 邮件 
应 用 为 例 ， 每 个 不 同 的 用 户 账 豆 束 是 一 个 个 自然 的 实体 群 组 ， 每 个 账 
号 的 邮件 操作 应 该 具有 事务 文 持 及 强 数据 一 致 性 ， 比 如 用 户 将 一 封 邮 
件 标 记 为 重要 ， 则 应 该 立即 可 以 看 到 标记 结果 ， 但 是 用 户 A 发 送 给 用 户 
B 的 邮件 〈 不 同 实体 群 组 ) 即使 在 时 间 上 有 些 短 暂 延 迟 ， 问 题 也 不 大 。 


7.5.2 ”数据 模型 


Megastore 的 数据 模型 介 于 关系 数据 库 和 NoSQL 存 储 系统 的 数据 模 
型 之 间 ， 数 据 模 型 由 一 个 模式 (Schema) 定义 ，Schema 下 面 可 以 定义 
不 同 的 表 (Table) ， 每 个 表 可 以 包含 不 同 的 属性 (Property) ， 对 于 某 
个 表 来 说 ， 其 中 部 分 属性 是 表 的 主键 (Key) 。Megastore 中 有 两 种 
表 : 实体 群 组 主 表 (Root Table) 和 子 表 (Child Table) ， 子 表 归 属 主 
表 管 辖 ， 并 且 要 求 子 表 的 每 条 记录 需要 有 外 键 指 问 主 表 。 

我 们 以 一 个 照片 分 享 应 用 作为 实例 来 说 明 Megastore 的 数据 模型 ， 
图 7-24 是 其 示意 图 。 这 个 应 用 包含 两 个 表格 ， 用 户 表 作为 主 表 ， 每 条 记 
了 永 包 含 用 户 ID 和 用 户 名 两 个 属性 ， 其 中 用 户 ID 是 这 个 主 表 的 主键 。 照 
片 表 是 用 户 表 的 子 表 ， 包 含 了 很 多 与 照片 有 关 的 信息 作为 表 的 属性 ， 


其 中 用 户 ID 和 照片 ID 共同 构成 了 表 的 主键 ，Megastore 的 表 属 性 文 持 可 
重复 属性 ， 比 如 例子 中 照片 的 Tag 必 性， 代表 用 户 给 照片 打上 的 文本 标 
签 ， 因 为 用 户 可 以 给 同一 个 照片 打上 多 个 标签 ， 所 以 这 个 属性 是 可 重 
复 的 。 照 片 表 中 的 用 户 ID 属 性 是 指 回 主 表 的 外 键 ， 即 其 属性 代表 的 含 
义 是 相同 的 。 主 表 中 的 一 个 实体 及 其 所 有 子 表 中 有 外 键 指向 这 个 实体 
的 所 有 信息 组 成 了 一 个 实体 群 组 ， 在 这 个 应 用 中 ， 每 个 用 户 的 信息 和 
所 有 归属 这 个 用 户 的 照片 相关 信息 组 成 了 一 个 实体 群 组 。 
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图 7-24 Megastore 数 据 模型 示例 - 


根据 图 7-24 中 两 个 表 的 示例 可 以 看 出 ， 例 子 应 用 中 包含 两 个 实体 群 
组 ， 用 户 “ 张 三 "有 两 张 照片 ,“ 李 四 ”也 拥有 两 张 照片 ， 用 户 “ 张 三 "和 用 
户 “ 李 四 ?及 其 所 有 照片 信息 各 目 是 一 个 实体 群 组 。 

Megastore 使 用 BigTable 来 存储 数据 ，BigTable 的 列 属性 由 Megastore 
的 表 名 和 属性 名 共同 构成 ， 同 一 个 实体 群 组 尽管 属于 不 同 的 表 ， 但 是 
在 BigTable 中 是 顺序 存储 的 ， 这 样 有 利于 按照 实体 群 组 快速 存 取 数据 。 
图 7-25 展 示 了 上 面 所 举 的 例子 在 BigTable 中 是 如 何 存储 的 。 比 如 用 
户 “ 张 三 ?和 其 两 张 照片 的 数据 顺序 存储 在 BigTable 中 ， 用 户 “ 李 四 ”数据 
的 存储 也 是 如 此 。 


图 7-25 BigTable 中 存储 的 数据 格式 


75.3 ”数据 读 / 写 与 备份 


Megastore 以 实体 群 组 为 单位 ， 将 每 份 数据 备份 在 多 个 数据 中 心 ， 
其 利用 优化 的 Paxos 协 议 来 傈 持 备 份 数据 之 间 的 数据 一 到 E o 
Paxos 协 议 可 以 保证 分 布 式 环境 下 的 数据 强 一 致 性 ， 但 是 效率 太 低 ， 
mere ay AUPE, Megastore IN AF DPE IRE, A OIM T Paxos 
的 执行 效率 ， 保 证 了 数据 的 可 用 性 。 


通过 优化 的 Paxos 协 议 ，Megastore 可 以 保证 不 论 用 户 发 出 的 读 二 写 
操作 从 哪个 备份 数据 发 起 ， 都 可 以 维持 数据 的 强 一 致 性 。 对 于 写 操作 
来 说 ， 需 要 在 数据 中 心 之 间 进 行 通信 来 保证 数据 一 致 性 ， 而 对 于 读 操 
作 来 说 ， 因 为 写 操作 已 经 保证 了 数据 的 一 致 性 ， 所 以 可 以 在 任意 一 个 
数据 中 心 保留 的 备份 数据 上 进行 读 取 。 

通过 优化 的 Paxos 协 议 ，Megastore 实 现 了 数据 的 可 用 性 及 低 延 迟 等 
存储 要 求 的 较 好 折 中 。 


7.6 ”Map/Reduce 云 计算 模型 


Map/Reduce 是 Google 公 司 针 对 海量 信息 处 理 提出 的 非常 著名 的 云 
计算 模型 ， 目 前 包括 Hadoop 等 众多 的 开源 系统 都 采纳 了 这 一 方法 ， 已 
经 成 为 了 主流 云 计算 模型 。 

Map/Reduce 不 仅 是 一 种 计算 模型 ， 同 时 也 是 系统 提供 的 一 个 计算 
框架 ， 也 就 是 说 ， 这 个 计算 框架 负责 将 应 用 程序 的 计算 任务 自动 分 配 
到 众多 机 器 上 ， 并 对 机 器 失效 等 情况 目 动 进行 检测 跟踪 ， 应 用 开发 者 


al 


需要 关注 应 用 任务 本 身 要 完成 的 工作 ， 至 于 底层 的 分 布 式 管理 工作 
全 交 由 这 个 计算 框架 来 完成 ,这样 大 大 加 快 了 应 用 的 开发 进度 。 


.6.1 计算 模型 


图 7-26 展 示 了 Map/Reduce 计 算 模 型 的 基本 思路 。 输 入 数据 是 由 
Key/Value 数 值 对 组 成 的 一 组 记录 ， 通 过 Map 操 作 ， 将 其 转换 为 新 的 
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alt 
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Keyl/Valuel 数 值 对 ， 输 入 数据 的 每 条 记录 可 能 生成 多 条 中 间 数 据 记 
录 。Reduce 控 作 则 将 中 间 数 据 里 相同 Key 的 Value 值 进行 否 加 等 处 理 
(如 图 7-26 所 示 中 间 数 据 记录 中 的 网 格 线 和 斜纹 线 代 表 不 同 的 Key 
值 ) ， 生 成 Key1/Value2 这 种 汇总 的 记录 形式 。 对 于 应 用 开发 者 来 说 ， 
只 需要 写 好 Map 和 Reduce 两 个 操作 的 代码 ， 其 他 工作 都 由 Map/Reduce 


框架 完成 。 
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图 7-26 ”Map/Reduce 计 算 模型 的 基本 思路 


我 们 以 一 个 简单 的 例子 来 说 明 ， 假 设 应 用 开发 的 任务 是 : 给 定 一 
个 网 页 集合 ， 统 计 网 页 中 的 每 个 单词 的 出 现 次 数 。 图 7-27 是 这 个 简单 示 
例 对 应 的 Map/Reduce 任 务 示意 图 。 假 设 网 页 集合 由 4 个 网 页 构成 ， 其 对 
应 的 DocID 分 别 是 D1、D2、D3 和 D4， 这 是 每 个 输入 数据 记录 的 Key， 
输入 数据 记录 的 Value 就 是 这 个 网 页 包含 的 单词 ， 简 单 起 见 ， 我 们 假设 
总 共有 两 个 单词 w1 和 w2。Map 操 作对 每 个 输入 数据 记录 的 Value 值 进行 
转化 ， 比 如 对 于 网 页 D1 来 说 ， 其 包含 两 个 单词 w1 和 w2， 所 以 将 其 转化 
为 两 个 中 间 数 据 记 录 : <w1,1> 和 <w2,1>， 其 代表 含义 是 wl 出 现 过 1 
次 ，w2 出 现 过 1 次 。 其 他 文档 经 过 Map 操 作 后 也 形成 类 似 的 中 间 结 果 ， 
在 中 间 结 果 里 ， 记 录 的 Key 就 是 单词 ， 而 对 应 的 Value 则 是 其 出 现 次 


数 ， 在 这 里 都 是 数值 1。Reduce 探 作 针 对 中 间 数 据 进行 合并 ， 将 相同 
Key 的 Value 值 累加 ， 得 到 最 终 的 输出 结果 : <w1,2> 和 <w2,4>， 即 单词 
wl 在 这 个 网 页 集合 里 出 现 过 2 次 ， 单 词 w2 在 网 页 集合 里 出 现 过 4 次 。 这 
样 就 完成 了 应 用 任务 ， 统 计 出 了 每 个 单词 的 总 共 出 现 次 数 。 
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图 7.27 ”简单 示例 对 应 的 Map/Reduce 任 务 示意 图 
7.6.2 ”整体 逻辑 流程 
Map/Reduce 是 针对 海量 数据 的 分 布 式 云 计算 模型 ， 上 述 小 节 只 是 


叙述 其 基本 原理 ， 如 果 面 临海 量 数据 ， 需 要 多 人 台 机 器 分 工 协作 完成 整 
个 计算 任务 ， 图 7-28 展 示 了 Map/Reduce 整 个 框架 的 逻辑 流程 。 
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图 7-28 ”Map/Reduce 整 个 框架 的 逻辑 流程 


Map/Reduce 框 架 首 先 将 应 用 任务 的 数据 进行 切割 ， 把 巨大 的 原始 
输入 数据 切割 成 固定 大 小 的 片段 ， 之 后 将 数据 分 发 到 不 同 的 机 器 上 ， 
同时 对 每 个 数据 片段 启动 一 个 Mapper 任 务 ， 来 对 这 个 数据 片段 进行 
Map 操 作 ， 数 据 经 过 Map 操 作 后 转换 为 新 的 KeyValue 形 式 ， 这 种 中 间 
数据 存储 在 本 地 机 器 中 。Combiner 任 务 的 目的 是 对 本 地 的 中 间 数 据 相 
同 Key 的 Value 值 先 行 汇 总 ， 主 要 目的 是 减少 后 续 将 中 间 数 据 通过 网 络 
传输 给 Reducer 的 数据 传输 量 ， 减 少 网 络 负 载 ， 分割 器 将 中 间 结 果 根 据 
其 Key 值 进行 哈 希 取 模 运算 ( 即 Hash(Key)mod R) ， 将 中 间 结 果 据 此 分 
成 R 份 ， 这 里 的 R 是 Reducer 的 数目 ， 这 么 做 的 目的 是 让 每 个 Reducer 只 
负责 汇总 其 中 的 一 部 分 数据 。 多 个 Reducer 位 于 其 他 机 器 上 ， 通 过 网 络 


传输 将 自己 应 该 负责 的 各 个 Mapper 产 生 的 中 间 结 果 取 到 本 地 ， 并 按照 
中 间 结 果 记 录 的 Key 进 行 排序 ， 之 后 就 可 以 对 这 个 数据 进行 Reduce 操 
作 ， 将 相同 Key 的 记录 Value 值 进 行 汇 总 计算 ， 得 到 最 终 计算 结果 。 
Map/Reduce 计 算 模 型 本 质 上 是 通过 分 而 治之 的 思想 ， 多 机 协作 来 
对 数据 集合 进行 全 局 性 的 统计 。 在 实际 应 用 中 ， 往 往 是 多 个 
Map/Reduce 子 任务 先后 串联 ， 前 面 的 Map/Reduce 输 出 结果 作为 后 续 
Map/Reduce 任 务 的 输入 数据 ， 类 似 流 水 线 一 样 共同 完成 复杂 计算 任 
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7.6.3 ”应 用 示例 


上 文 举 了 个 简单 例子 来 说 明 Map/Reduce 的 基本 思想 ， 本 和 用 网 页 

人 
应 用 。 

这 里 的 网 页 去 重 采 用 人 简单 策略 ， 目 标 是 将 网 页 集合 内 所 有 内 容 相 
同 的 网 页 找 出 来 ， 采 取 对 网 页 内 容 取 哈 硕 值 的 方法 ， 比 如 MD5， 如 有 果 
两 个 网 页 的 MD5 值 相同 ， 则 可 以 认为 网 页 内 容 完 全 相同 。 

在 Map/Reduce 框 架 下 ， 输 入 数据 是 网 页 本 映 ， 可 以 用 网 页 的 URL 
作为 输入 数据 的 Key， 网 页 内 容 是 输入 数据 的 Value; Map 操 作 则 对 每 个 
网 页 的 内 容 利用 MD5 计 算 哈 硕 值 ， 以 这 个 哈 硕 值 作为 中 间 数 据 的 Key， 
网 页 的 URL 作 为 中 间 数 据 的 Value; Reduce 操 作 则 将 相同 Key 的 中 间 数 
据 对 应 的 URL 建 立成 一 个 链表 结构 ， 这 个 链表 代表 了 具有 相同 网 页 内 
容 哈 希 值 的 都 有 哪些 网 页 。 这 样 束 完成 了 识别 内 容 相 同 网 页 的 任务 。 

对 于 建立 倒 排 索引 这 个 任务 来 说 ， 输 入 数据 也 是 网 页 ， 以 网 页 的 
DocID 作 为 输入 数据 的 Key， 网 页 中 出 现 的 单词 集合 是 输入 数据 的 
Value; Map 操 作 将 输入 数据 转化 为 <word,DocID> 的 形式 ， 即 某 个 单词 
作为 Key，DocID 作 为 中 间 数 据 的 Value， 其 含义 是 单词 word 在 DocID 这 
个 网 页 出 现 过 ; Reduce 操作 将 中 间 数 据 中 相同 Key 的 记录 融合 ， 得 到 某 
个 单词 对 应 的 网 页 ID 列表 : <word,List(DocID)>。 这 就 是 单词 word 对 应 
的 倒 排 列表 。 通 过 这 种 方式 就 可 以 建立 简单 的 倒 排 索引 ， 在 Reduce 阶 
段 也 可 以 做 些 复杂 操作 ， 获 得 形式 更 为 复杂 的 倒 排 列表 。 

在 实际 的 搜索 引擎 中 ， 在 建立 索引 之 前 往往 首先 对 网 页 去 重 ， 上 
面 两 个 例子 可 以 依次 串联 起 来 ， 即 先 用 Map/Reduce 方 式 对 网 页 去 重 ， 
之 后 根据 去 重 后 的 网 页 来 建立 倒 排 索引 ， 将 两 个 Map/Reduce 任 务 串 联 
起 来 形成 更 加 复杂 的 任务 。 


7.7 ”咖啡 因 系统 


2010 年 6 月 ，Google 公 司 宣布 咖啡 因 系 统 上 线 ， 这 是 一 种 新 的 索引 
更 靳 方式 ， 几 乎 可 以 实时 对 抓 取 到 的 内 容 进 行 更 新 并 体现 在 搜索 结 
内 。 据 说 该 系统 上 线 后 影响 了 152% 互 联网 网 页 的 搜索 排名 ， 其 实 从 其 
功能 来 讲 ， 咖 啡 因 系统 并 没有 对 搜索 排序 因素 做 出 改变 ， 不 会 对 搜索 
排名 本 身 有 直接 影响 ， 只 不 过 随 着 更 新 周期 的 缩短 ， 使 得 靳 更 新 的 网 
页 内 容 更 快 体现 在 搜索 结果 上 ， 或 许 是 最 近 更 新 网 页 新 增加 的 内 容 导 
致 网 页 用 户 碍 询 更 相关 ， 所 以 造成 了 更 新 网 页 的 排名 上 升 ， 影 响 到 内 
容 没 有 更 新 的 网 页 ， 给 人 的 外 部 观感 是 直接 影响 了 搜索 排名 。 

咖啡 因 系 统 是 外 部 代号 ， 其 对 应 的 内 部 项 目 名 称 叫 做 Percolator， 
这 本 质 上 是 构建 在 BigTable 上 的 一 种 与 Map/Reduce 计 算 方 式 互 补 的 云 计 
算 模 式 ， 主 要 用 来 对 搜索 引擎 的 索引 系统 进行 快速 增 量 更 新 。 在 部 署 
咖啡 因 系统 之 前 ，Google 搜 索 的 索引 更 新 是 利用 Map/Reduce 机 制 周 期 
性 全 量 更 新 的 ， 也 束 是 说 ， 每 隔 一 段 日 期 ， 将 新 抓 取 的 网 页 和 原来 抓 
取 到 的 网 页 作为 一 个 整体 ， 利 用 Map/Reduce 重 新 建立 一 遍 索 引 ， 很 明 
显 ， 这 种 方式 更 新 周期 比较 长 。 在 部 署 咖啡 因 系统 之 后 ， 索 引 系 统 
以 做 到 增 量 更 新 ， 对 于 新 抓 取 到 的 网 页 ， 可 以 立即 更 新 到 索引 系统 
里 ， 新 的 索引 更 新 周期 比 原 先 的 方式 快 了 大 约 100 倍 左右 。 

咖啡 因 系 统 作为 一 种 增 量 更 新 模式 ， 并 不 是 Map/Reduce 的 百代 
品 ， 两 者 各 有 所 长 ， 起 到 互补 作用 。 如 有 条 是 全 局 性 的 统计 工作 ， 还 是 
比较 适合 用 Map/Reduce 来 做 ， 而 对 于 局 部 性 的 更 新 则 比较 适合 使 用 
Percolator 系 统 来 处 理 。 另 外 ，Percolator 在 BigTable 的 行事 务 文 持 的 基础 
上 实现 了 跨行 器 表 的 事务 文 持 ， 所 以 提供 了 对 数据 处 理 的 强 一 致 性 服 
务 ， 如 有 果 应 用 只 有 较 弱 的 一 致 性 要 求 ， 那 么 直接 使 用 BigTable 已 经 足 
人 够 ， 如 果 有 强 事 务 要 求 的 话 ， 则 使 用 Percolator 比 较 合 适 。 再 次 ， 
Percolator 是 对 海量 数据 处 理 的 计算 模型 ， 如 果 数 据 量 没 有 达到 一 定量 
级 ， 其 实 直 接 采 用 数据 库 系 统 即 可 满足 需求 。 所 以 ， 咖 啡 因 系统 可 以 
理解 为 针对 海量 数据 处 理 的 、 提 供 强 一 致 性 文 持 的 局 部 更 新 计算 模 
型 。 这 是 其 与 所 有 其 他 系统 的 不 同 之 处 。 

从 设计 特点 来 说 ,为 了 能 够 支持 对 海量 数据 的 增 量 更 狐 ， 
Percolator 主 要 提供 了 以 下 两 种 功能 首先 是 能 够 对 数据 进行 随机 存 取 
并 提供 对 数据 处 理 的 ACID 事务 支持 ， 另 外 提供 了 类 似 于 观察 了 通知 方 
式 的 整体 计算 结构 。 


771 事务 支持 


Percolator 


Percolator 提 供 了 支持 ACID 快 照 隔离 语义 的 跨行 跨 表 事务 ， 如 果 一 
个 操作 涉及 更 改 不 同 表 的 不 同 数 据 ， 那 么 这 些 更 改 要 入 同时 生效 ， 要 
么 同时 失效 ， 这 样 保持 了 数据 之 则 的 一 任性 ， 这 是 Percolator 能 够 提供 
增 量 更 新 的 一 个 基础 要 求 ， 在 后 面 我 们 会 举 个 具体 的 例子 来 说 明 
Percolator 是 如 何 保证 这 种 一 致 性 的 。 

所 请 快照 隔离 ， 是 指 多 个 用 户 同时 读 写 相同 的 数据 时 ， 相 互 之 
间 关 系 很 复杂 ， 很 容易 发 生 阻 塞 甚至 是 死 锁 ， 快 照 隔 离 维护 了 数据 的 
不 同 版 本 ， 不 同 的 操作 针对 不 同 的 数据 版 本 进行 ， 以 此 来 增加 并 发 程 
度 并 保证 数据 的 修改 一 致 性 。Percolator 是 在 BigTable 基 础 上 实现 的 ， 前 
面 小 节 我 们 介绍 过 ，BigTable 在 其 基本 存储 单元 (Cell) 里 支持 多 版 本 
数据 的 存储 ， 这 天 然 适 合 进 行 快 照 隔 离 。 通 过 快照 隔离 语义 ， 
Percolator 可 以 解决 写 冲 突 : 如 果 同 时 有 两 个 应 用 写 同 一 数据 ， 那 么 系 
统 可 以 保证 只 有 一 个 应 用 会 成 功 写 入 。 

我 们 以 一 个 简单 例子 来 说 明 Percolator 是 如 何 提 供 事 务 支 持 的 ， 假 
设 任务 如 下 : 我 们 有 两 个 银行 账户 ,“ 张 三” 的 银行 户头 有 10 元 钱 ,，“ 李 
四 ”的 银行 账户 有 2 元 钱 ， 现 在 需要 从 * 张 三 ”的 账户 划拨 7 元 钱 到 “ 李 
四 ”的 账户 中 ， 即 划拨 后 “ 张 三 " 账 户 的 户头 余额 为 3 元 , “ELIA AR 
头 余额 为 9 元 。 这 个 任务 往往 由 两 个 操作 步骤 组 成 : 首先 从 *“ 张 三? 账户 
扣除 7 元 ， 然 后 给 “ 李 四 ” 账 户 增 加 7 元 。 很 明显 这 个 任务 需要 事务 支 
持 ， 否 则 在 操作 进行 过 程 中 ， 如 果 系 统 出 错 ， 很 可 能 钱 从 “ 张 三 * 账 户 
扣除 成 功 ， 但 是 并 未 追加 到 “ 李 四 ” 的 账户 ， 导 致 资金 总 额 出 错 。 而 事 
务 文 持 可 以 保证 : 要 么 两 个 操作 都 成 功 ， 要 么 两 个 操作 都 失败 ， 不 论 
如 何 ， 能 够 保证 两 者 资金 总 额 是 12 元 ， 即 数据 是 一 致 的 。 

针对 这 个 任务 ， 我 们 看 看 Percolator 是 如 何 操作 的 ，BigTable 提 供 了 
对 数据 行 的 事务 文 持 ，Percolator 充 分 利用 这 一 点 ， 为 表 中 每 列 数据 增 
加 管理 数据 ， 其 中 Column:Lock 和 Column:Write 用 来 进行 事务 支持 ， 男 
外 的 管理 数据 是 为 了 支持 订阅 通知 体系 结构 的 。 要 完成 上 述 任务 ， 
需要 依次 执行 以 下 几 个 步骤 。 

图 7-29 是 任务 执行 前 的 某 个 BigTable 表 格 的 初始 状态 ， 表 中 每 个 存 
储 单 元 (Cell) 可 以 存储 不 同时 间 惟 的 多 个 数据 版 本 , “5:10 元 ”代表 时 
则 稚 为 5 的 时 候 ， 用 户 “ 张 三 ”对 应 的 账户 金额 为 10 元 。 从 表 中 可 以 看 出 
对 于 存储 账户 金额 的 数据 bal:data 列 ，Percolator 对 应 增加 了 两 列 bal:lock 
和 bal:write， 其 中 bal:lock 列 是 用 来 存储 锁 的 管理 数据 列 ， 而 bal:write 列 
则 指出 了 哪个 时 间 惟 的 数据 是 当前 可 用 数据 ， 比 如 “6: data@5” 即 指明 
了 bal:data 列 的 时 间 惟 为 5 的 数据 是 可 用 数据 。 


Sol 


图 7-29 任务 执行 前 的 菜 个 BigTable 表 格 初始 状态 


图 7-30 展 示 了 任务 的 第 1 步 操 作 ，Percolator 从 系统 获取 新 的 时 间 戳 
7， 并 在 bal:lock 写 入 锁 标记 Primary， 说 明 这 个 锁 是 主 锁 ， 同 时 将 “ 张 
三 ”的 新 的 金额 3 元 写 入 数据 列 bal:data， 因 为 BigTable 支 持 基于 行 的 事 
务 ， 所 以 这 些 操 作 可 以 保证 其 数据 一 致 性 。 


图 7-30 任务 第 1 步 ， 扣 除 < 张 三 "的 金额 


图 7-31 展 示 了 任务 的 第 2 步 操作 ，Percolator 在 bal:data 列 写 入 “ 李 
四 ”的 新 的 账户 金额 ， 同 时 在 bal:lock 列 写 入 二 级 锁 “Primary@ 张 
三 .ba>”， 二 级 锁 指 出 了 主 锁 所 在 位 置 ， 即 * 张 三 ”这 一 行 的 bal.lock 列 
中 。 之 所 以 在 这 里 写 入 如 此 内 容 的 二 级 锁 ， 主 要 是 防止 任务 执行 失败 
时 ， 系 统 能 够 找到 主 锁 的 位 置 并 清除 掉 未 完成 任务 的 主 锁 。 


Key bal:data bat 


图 7-31 ”任务 第 2 步 : 增加 “ 李 四 ” 的 金额 


当 某 一 行 加 锁 的 时 候 ， 其 他 事务 对 该 行 的 读 .二 写 操作 都 被 暂时 阻 
窒 ， 直 到 锁 被 释放 才 可 以 继续 。 图 7-32 指 出 了 当 账 户 金额 都 得 到 更 改 
后 ， 这 个 任务 作为 一 个 事务 ， 人 处 于 可 提交 状态 。 此 时 系统 获取 新 的 时 
间 戳 ， 并 清理 掉 主 锁 ， 同 时 在 bal:write 列 指出 新 的 可 用 数据 为 bal:data 中 
时 间 戳 为 7 的 数据 ， 此 时 所 有 者 的 读 取 操 作 会 根据 pal:write 列 找到 账 
户 “ 张 三 ” 的 最 新 数据 3 元 。 


‘Key baldata bakl 
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图 7-32 释放 主 锁 ， 指 出 可 用 数据 
同样 地 ， 账 户 “ 李 四 ”的 二 级 锁 被 释放 ， 同 时 在 bal:write 列 指出 新 的 
可 用 数据 所 在 位 置 : bal:data 的 时 间 惟 为 7 的 数据 (参考 图 7-33) ° 


Key _ bal:data ~ bakloc 


图 7.33 ”释放 二 级 锁 ， 指 出 可 用 数据 


通过 以 上 几 个 步骤 ，Percolator 往 BigTable 数 据 行 加 入 管理 数据 ， 就 
实现 了 跨行 跨 表 的 事务 支持 。 上 面 所 举例 子 非常 简单 ， 在 实际 系统 


和 IEF WL AY DASE SS SS E 
新 的 功能 。 


7.7.2 ”观察 了 通知 体系 结构 


Percolater 采 用 了 观察 二 通知 的 机 制 来 将 应 用 程序 串 接 起 来 形成 一 
个 上 整体， 图 7-34 是 其 运行 流程 示意 图 。 在 BigTable 的 每 个 子 表 服务 器 
上 ，Percolater 都 部 署 了 一 个 Percolater 控 制 器 (Percolater Worker) ， 不 
同 的 应 用 在 控制 器 登记 两 类 信息 : 哪个 应 用 程序 观察 子 表 的 哪些 列 ， 
在 这 里 每 个 应 用 程序 被 称 做 一 个 观察 者 。 在 图 示 中 ， 有 两 个 观察 者 ， 
观察 者 1 关注 子 表 的 第 1 列 和 第 2 列 ， 观 察 者 2 关注 子 表 的 第 3 列 。 
Percolater 探 制 右 不 断 扫 摘 于 表 的 列 内 容 ， 如 果 发 现 被 观察 的 某 列 数据 
做 出 更 改 ， 则 通知 观察 这 列 数 据 的 观察 者 ， 观 察 者 执行 相应 的 程序 逻 
辑 控 作 ， 并 将 更 新 的 内 容 写 入 子 表 中 ， 狐 写 入 的 数据 可 能 会 触发 其 他 
观察 者 启动 执行 。Percolator 就 是 通过 这 种 观察 通知 的 机 制 将 完成 一 
项 任务 所 需 的 所 有 步骤 串 接 起 来 ， 有 点 类 似 于 多 米 诺 骨 牌 ， 一 一 依次 
触发 。 在 图 7-34 中 ， 当 Percolater 控 制 絮 发 现 第 2 列 第 2 行 被 写 入 数据 X 
后 ， 通 知 观 察 者 1， 观 察 者 1 执行 对 应 的 程序 ， 执 行 结 束 后 在 子 表 的 第 3 
行 第 3 列 写 入 数据 Y， 这 触发 了 观察 者 2 的 执行 。 
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图 7-34 “观察 ,通知 体系 结构 运行 流程 示意 图 


Percolater 主 要 用 来 对 索引 内 容 进行 增 量 更 新 ， 当 有 一 批 新 增 网 页 
被 抓 取 后 ， 系 统 通 过 Map/Reduce 方 式 将 新 增 网 页 加 载 进 入 BigTable 对 应 
表 中 ，Percolater 的 观察 了 通知 机 制 开始 启动 ， 这 触发 了 网 页 内 容 处 理 
观察 者 ， 将 网 页 内 容 抽 取出 来 或 者 是 处 理 网 页 中 包含 的 链接 ， 网 页 内 
容 处 理 观 察 者 将 其 操作 结果 写 入 BigTable 对 应 表格 ， 则 会 触发 网 页 去 重 
观察 者 ， 如 此 这 般 ， 一 个 任务 触发 另外 一 个 任务 ， 通 过 大 约 10 个 子 任 
务 ， 就 可 以 完成 新 增 网 页 的 索引 更 新 。 


7.8 Pregel 图 计算 模型 


随 着 Web 2.0 的 兴起 ， 大 规模 图 计算 越 来 越 重要 ， 比 如 社交 关系 图 
的 计算 等 ， 即 使 是 搜索 引 警 服务 本 身 ， 前 述 章节 讲述 的 链接 分 析 也 是 
一 个 典型 的 图 计算 实例 。 对 于 非常 巨大 的 计算 规模 ， 如 何在 分 布 式 环 
境 下 来 对 图 进行 计算 成 为 具有 挑战 性 的 问题 ， 尽 管 通过 一 系列 串 接 的 
Map/Reduce 任 务 也 可 以 完成 图 计算 的 功能 ， 但 有 古 因为 图 计算 本 身 的 特 
点 ， 使 用 Map/Reduce 进 行 图 计算 需要 很 高 的 机 喜之 间 的 通信 开销 ， 而 


且 计 算 模型 也 非常 复杂 。 为 了 减轻 这 个 问题 ，Google 提 出 了 Pregel 计 算 
模型 ， 专 门 用 来 解决 大 规模 分 布 式 图 计算 的 问题 。 

PageRank 需 要 迭代 计算 ， 其 实 很 多 岁 算 法 都 有 这 个 特点 ， 所 以 
Pregel 将 此 作为 重要 特点 引入 计算 模型 中 ， 一 次 迭 代 计 算 农 称 做 一 个 超 
级 步 (SuperSteps) ， 系 统 从 一 个 超级 步 迈 向 下 一 个 超级 步 ， 直 到 达到 
算法 的 终止 条 件 (参考 图 7-35) 。Pregel 以 图 节点 为 计算 中 心 ， 在 超级 
步 s 中 ， 每 个 图 节点 可 以 汇总 从 超级 步 s 一 1 中 其 他 市 点 传递 过 来 的 消 
息 ， 改 变 目 身 的 状态 ， 并 向 其 他 节点 发 送 消 息 ， 这 些 消息 会 在 超级 步 S 
十 1 中 被 其 他 市 点 接收 并 做 出 处 理 。 用 户 只 需要 自 定 义 一 个 针对 图 节点 
ATTEN (vertex) ， 用 来 实现 上 述 的 图 节点 计算 功能 ， 至 于 其 他 
i ` 任务 管理 、 系 统 容错 等 都 交 由 Pregel 系 统 来 实 
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图 7-35 ”Pregel 的 计算 模型 


每 个 节点 有 两 种 状态 : 活路 与 不 活跃 。 刚 开始 计算 的 时 候 每 个 节 
扩 部 处 于 活路 状态 ， 随 着 计算 的 进行 ， 某 些 市 点 完成 计算 任务 转 为 不 


活跃 状态 ， 如 果 处 于 不 活跃 状态 的 节点 接收 到 新 的 消息 ， 则 再 次 转 为 
活跃 ， 如 果 图 中 所 有 节点 都 处 于 不 活跃 状态 ， 则 计算 任务 完成 ，Pregel 
输出 计算 结果 。 

Pregel 是 在 多 台 机 器 协同 下 完成 图 计算 任务 的 ， 与 很 多 Google 云 存 
储 与 云 计 算 模型 一 样 ，Pregel 也 采用 了 主 从 结构 来 实现 整体 功能 ， 图 7- 
36 是 其 物理 结构 图 。 其 中 一 台 服务 器 充当 主 控 服务 器 ， 负 责 整个 图 结 
构 的 任务 切 分 ， 将 其 切割 成 子 图 ， 并 把 任务 分 配给 众多 的 工作 服务 
器 ， 工 作 服务 器 负责 计算 被 分 配给 自己 的 子 图 ， 主 控 服务 器 还 命令 工 
作 服务 器 进行 每 一 个 超级 步 的 计算 ， 并 收集 计算 结果 。 
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图 7.36 Ppregel 的 分 布 协 作 关系 


我 们 以 一 个 具体 的 计算 任务 来 作为 Pregel 图 计算 模型 的 实例 ， 这 个 
任务 要 求 将 图 中 节点 的 最 大 值 传 播 给 图 中 所 有 其 他 节点 ， 图 7-37 是 其 示 
意图 。 图 中 的 实 线 箭头 表明 了 图 的 链接 关系 ， 而 图 中 节点 内 的 数值 代 
表 了 节点 的 当前 数值 ， 图 中 虚线 代表 了 不 同 超级 步 之 间 的 消息 传递 关 
系 ， 同 时 ， 带 有 和 斜纹 标记 的 图 太后 是 不 活跃 让 把 。 
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图 7-37 ”Pregel 传 播 最 大 值 


从 图 7-37 中 可 以 看 出 ， 数 值 6 是 图 中 最 大 值 ， 在 超级 步 0 中 ， 所 有 市 
点 都 是 活路 的， 系统 执行 用 户 画 数 F (vertex) : 节点 将 自身 的 数值 通 
过 链接 关系 传播 出 去 ， 接 收 到 消息 的 世上 点 选择 其 中 的 最 大 值 ， 并 和 上 自 
身 数 值 比 较 ， 如 有 果 比 上 自身 数值 大 ， 则 更 新 为 新 的 数值 ， 如 果 不 如 目 身 
的 数值 大 ， 则 转 为 不 活路 状态 。 

在 超级 步 0 中 ， 每 个 太后 部 将 目 身 的 数值 通过 链接 传播 出 去 ， 系 统 
进入 超级 步 1， 执 行 F (vertex) 函数 ， 第 1 行 和 第 4 行 的 入 点 因为 接收 到 
了 比 自身 数值 大 的 数值 ， 所 以 更 新 为 新 的 数值 6。 第 2 行 和 第 3 行 的 节点 
没有 接收 到 比 自 喘 数值 大 的 数 ， 所 以 转 为 不 活路 状态。 在 执行 完 函 数 
后 ， 处 于 活跃 状态 的 节点 再 次 发 出 消息 ， 系 统 进 入 超级 步 2， 第 2 行 节 
扩 本 来 处 于 不 活跃 状态 ， 因 为 接收 到 新 消息 ， 所 以 更 新 数值 到 6， 重 新 
处 于 活跃 状态， 而 其 他 市 点 都 进入 了 不 活路 状态。Pregel 进 入 超级 步 
3， 所 有 节点 处 于 不 活跃 状态 ， 所 以 计算 任务 结束 ， 这 样 就 完成 了 整个 
任务 ， 最 大 数值 通过 4 个 超级 步 传递 给 图 中 所 有 其 他 世 点 。 

从 上 述 描 述 可 以 看 出 ，Pregel 古 一 个 消息 驱动 的 、 以 图 节点 为 中 心 
的 并 且 是 适合 迭代 计算 的 分 布 式 图 计算 模型 。 


7.9 ”Dynamo 云 存储 系统 


Dynamo 是 亚 蕊 进 公司 开 发 的 云 存储 系统 ， 主 要 用 来 存储 电子 商务 
网 站 购物 车 相关 数据 。Dynamo 在 设计 哲学 上 与 Google 的 主 从 结构 大 异 
其 趣 ， 在 整个 系统 内 不 存在 作为 管理 控制 功能 的 主 控 节点 ， 完 全 采取 
对 等 网 络 (Peer to Peer) 的 方法 ， 每 个 节点 功能 相同 ， 都 同时 承担 数据 


存储 和 部 分 管理 功能 。Google 苑 式 的 单 主 探 斑点 和 Dynamo 范 式 的 完全 
对 等 网 络 可 以 认为 是 海量 存储 系统 的 两 个 极端 ， 有 些 其 他 云 存储 模式 
介 于 两 者 之 间 。 

Dynamo 系 统 与 很 多 其 他 云 存 储 系 统一 样 ， 采 用 大 量 商 用 PC 构建 存 
储 网 络 ， 以 数据 的 最 终 一 致 性 作为 代价 ， 来 换取 系统 的 高 可 用 性 和 高 
容错 性 。Dynamo 的 数据 模型 相对 简单， 是 很 直观 的 Key/Value 模 式 ， 有 即 
每 条 数据 都 是 由 主键 Key 和 数据 Value 构成 的 ， 不 像 BigTable 等 系统 一 样 
在 其 数据 区 有 列 属性 。Dynamo 设 计 原 则 如 下 。 

1. 易 扩展 性 。 如 果 数 据 量 增加 ， 可 以 通过 简单 增加 机 器 解决 问 
题 ， 同 时 在 增加 机 妖 时 不 影响 现 有 服务 的 正常 运转 ， 这 一 点 对 于 云 存 
储 系 统 来 说 应 该 说 是 个 标准 需求 。 

2. 对 等 性 与 去 中 心 控 制 节点 。 系 统 内 每 个 节点 功能 完全 对 等 ， 都 
同时 承担 数据 存储 和 部 分 管理 功能 ， 不 存在 单独 承担 管理 功能 的 中 心 
主 探 和 点 。 这 一 点 Dynamo 可 谓 独 出 心 裁 ， 一 般 的 云 存储 系统 都 还 是 要 
一 些 单独 承载 管理 功能 的 主 控 节点 。 

3. 机 器 异 构 性 。 所 谓 机 器 异 构 性 ， 指 的 是 在 一 个 复杂 系统 内 ， 使 
用 大 量 机 器 ， 但 是 每 台 机 器 性 能 大 不 相同 ， 有 相对 老 些 的 机 絮 ， 其 存 
储 和 计算 资源 较 少 ， 也 有 新 型 机 器 ， 拥 有 大 量 存 储 空间 和 多 核 CUP 等 
资源 ， 系 统 应 该 让 资源 少 的 机 器 承担 较 少 任务 ， 而 让 资源 富余 的 机 器 
承载 较 多 任务 。 一 般 的 云 存储 系统 通过 负载 均衡 来 达到 这 个 目的 ， 而 
Dynamo 则 将 这 个 作为 设计 原则 并 体现 在 其 设计 思路 中 。 

Dynamo 系 统 作为 完全 采取 P2P 架 构 的 云 存 储 系 统 ， 在 拉 术 上 展现 
了 很 多 独特 之 处 ， 虽 然 这 种 设计 方案 是 否 合理 在 业界 存在 大 量 争 议 ， 
而 且 目 前 来 看 ， 这 种 方案 能 否 经 得 起 时 间 考 难 上 值 得 怀疑 ， 但 是 系统 
里 使 用 的 一 些 技术 思路 还 是 非常 值得 介绍 的 。 


7.9.1 ”数据 划分 算法 (Partitioning Algorithm) 


为 了 达到 易 扩展 性 ， 系 统 要 能 够 根据 数据 情况 和 机 器 情况 ， 动 态 
地 在 机 器 之 间 分 配 数据 。 对 于 存在 主 控 世 点 的 分 布 式 系统 来 说 ， 一 般 
由 主 控 丰 上 扣 来 决定 将 海量 的 数据 进行 划分 ， 并 分 配 到 数据 存储 市 点 
中 。 但 是 对 于 Dynamo 这 种 世 点 功能 完全 对 等 的 系统 来 说 ， 如 何 决 定 将 
哪些 数据 放置 在 哪 台 机 器 昵 ? Dynamo 使 用 了 一 致 性 哈 希 技术 来 进行 数 
据 的 划分 和 分 配 。 

图 7-38 是 一 致 性 哈 希 算法 的 示意 图 。Dynamo 将 所 有 主键 的 哈 布 数 
值 空 间 组 成 一 个 首尾 相 接 的 环 状 序列 ， 对 于 每 台 机 器 ， 随 机 赋予 其 一 


个 哈 希 值 ， 这 样 不 同 的 机 器 就 成 了 环 状 序列 中 的 不 同 节 点 (图 7-38 中 环 
上 的 4 个 大 圆 即 代表 不 同 的 机 器 ) ， 而 这 全 机 器 则 负责 存储 落 在 一 段 哈 
希 空间 内 的 数据 。 如 末 一 个 数据 的 哈 希 值 落 入 茶 个 区 段 ， 则 顺 时 针 进 
行 查找 ， 找 到 第 1 台 机 侨 ， 这 台 机 絮 束 负责 这 个 数据 的 存储 ， 之 后 的 相 
天 存 取 操 作 及 元 余 备 份 等 操作 也 由 其 负责 。 通 过 这 种 方式 ， 束 目 动 实 
现 了 数据 在 不 同 机 融 之 间 的 动态 分 配 。 


虚拟 节点 1 


Hash 


Hash 


虚拟 节点 3 
图 7-38 ”一致 性 哈 希 算法 
一 致 性 哈 希 算法 有 个 明显 的 优点 : 如 果 新 加 入 一 台 机 器 或 者 某 台 
机 恬 失 效 无 法 提供 服务 ， 其 影响 的 范围 也 只 限于 其 本 和 喘 负 责 的 那 段 哈 
硕 数 值 空 间 及 和 其 顺 时 针 顺 序 相 邻 的 节点 ， 对 于 网 络 内 其 他 节点 没有 
影响 ， 即 其 影响 是 局 部 的 ， 可 扩展 性 非常 好 。 


为 了 达到 机 右 异 构 性 ，Dynamo 还 引入 了 虚拟 市 点 的 思想 ， 即 将 一 
台 物 理 机 絮 的 计算 和 存储 资源 分 割 成 硅 干 虚拟 机 ， 每 个 虚拟 机 作为 插 
入 环 状 序列 的 服务 节点 。 这 样 的 话 ， 对 于 高 配置 的 机 器 ， 可 以 划分 成 
数量 较 多 的 虚拟 机 ， 而 对 于 比较 老 的 机 器 ， 则 划分 较 少 数量 的 虚拟 
机 ， 如 此 每 全 物理 机 融 的 任务 负载 量 和 其 资源 能 力 相 匹配 ， 同 时 充分 
利用 了 一 些 配 置 较 低 的 机 絮 资 源 。 


79.2 ”数据 备份 (Replication) 


大 量 PC 构成 的 云 存储 系统 ， 数 据 元 余 备 份 羡 必须 考虑 的 ， 因 为 机 
霹 宇 机 是 个 解 仿 ， 为 了 保证 数据 总 是 可 用 ， 必 须 对 存储 数据 进行 多 个 
tt TR ERT RATA, IA A EE EPS 
负责， 但 是 对 于 完全 对 等 网 络 ， 则 由 数据 存储 三 点 来 接管 这 一 功能 。 

上 市 讲 过 ， 每 个 虚拟 市 点 负责 存储 一 部 分 哈 希 空间 的 数据 ， 同 时 
这 个 市 点 也 人 负责 将 这 些 数 据 备份 到 环 中 顺 时 针 方 呵 后 续 的 N 一 1 个 市 抬 
中 ， 这 样 每 份 数据 就 在 系统 中 存在 N 份 数据 ， 达 到 元 余 存 储 的 目的 。 


7.9.3 ”数据 读 写 


每 个 虚拟 节点 负责 其 管辖 范围 内 的 数据 读 写 操作 ， 因 为 系统 
存在 多 个 备份 数据 ， 所 以 对 于 写 操 作 ， 要 保证 数据 内 容 的 一 臻 性， 而 
对 于 读 操 作 ， 也 要 保证 能 够 读 取 到 最 新 的 更 新 数据 。 

为 了 达到 上 述 目 的 ，Dynamo 采 取 了 类 似 于 投票 机 制 的 数据 一 致 协 
议 ， 来 达成 一 种 可 根据 具体 需求 动态 配置 的 系统 ， 来 保证 系统 总 是 可 
以 读 取 到 最 新 更 新 的 数据 。 假 设 系 统 对 于 每 份 数据 共存 储 N 份 ， 数 值 R 
代表 一 次 成 功 的 读数 据 操作 要 求 至 少 有 R 份 数据 成 功 读 取 ， 而 数值 W 代 
表 一 次 成 功 的 更 新 操作 要 求 至 少 有 W 份 数据 写 入 成 功 ， 如 琳 满 足 : 

R+W>N 


则 满足 数据 一 致 协议 。 

我 们 以 图 7-39 的 具体 例子 来 说 明 这 种 数据 一 致 协议 ， 图 7-39 中 ，N 
为 3， 即 系统 中 每 个 数据 保留 3 个 备份 。 R 设 置 为 2， 含 义 是 在 读 取 这 个 
数据 的 时 候 ， 至 少 要 有 2 个 备份 数据 读 取 成 功 ， 此 次 读 取 才 能 侯 认 为 是 
有 效 读 取 。 而 W 设 置 为 2， 含 义 是 在 写 入 数据 的 时 候 会 同时 间 3 个 备份 
GBA, BRAM PEE SABA, THU AX eK ARR ARR 
作 。 因 为 R+W>N， 所 以 这 种 配置 是 符合 数据 一 致 协议 的 。 从 图 7-39 中 
可 以 看 出 ， 如 采 R 十 W>N， 则 读 取 操作 和 写 入 操作 成 功 的 数据 一 定 会 


有 交集 (图 7-39 中 是 数据 备份 B) ， 这 样 就 可 以 保证 一 定 能 够 读 取 到 最 
新 的 更 新 数据 ， 数 据 的 一 致 性 得 到 了 保证 。 


图 7-39 ”数据 一 致 协议 


在 满足 数据 一 致 协议 的 前 提 下 ，R 或 者 W 设 置 得 越 大 ， 则 系统 延迟 
越 大 ， 因 为 这 取决 于 最 慢 的 那 份 备份 数据 的 啊 应 时 间 。 根 据 系 统 的 需 
求 ， 可 以 配置 不 同 的 参数 组 合 ， 比 如 图 7-39 中 可 以 配置 为 W=1，R= 
3， 合 义 是 只 要 成 功 写 入 1 个 备份 束 算 成 功 ， 而 读 取 则 需要 3 个 备份 都 成 
功 才 算 有 效 读 取 ， 这 种 配置 明显 适合 要 求 写 入 速度 较 快 ， 而 对 读 取 速 
度 要 求 不 高 的 应 用 场合 。 

数据 一 致 协议 可 以 允许 应 用 系统 根据 实际 需要 来 配置 相应 的 R、 
W、N 参 数 ， 增 加 了 云 存储 系统 的 灵活 性 。 


7.9.4 数据 版 本 控制 


分 布 式 存储 系统 对 于 菜 个 数据 存在 多 个 备份 ， 数 据 写 人 时 要 尽量 
保证 备份 数据 同时 获得 更 新 ，Dynamo 对 此 采取 了 数据 的 最 终 一 致 ， 也 
就 是 说 ， 在 一 定 的 时 间 窗 口内 ， 对 数据 的 更 新 会 传播 到 所 有 备份 中 ， 
但 是 在 时 间 窗口 内 ， 如 采 客 户 端 有 读 取 数据 的 操作 ， 尽 管 上 一 小 市 保 
证 一 定 可 以 读 取 到 最 新 的 数据 ， 但 还 是 可 能 会 同时 读 取 到 旧版 本 的 数 
据 ，Dynamo 保 存 了 数据 的 新 旧 等 多 个 版 本 信息 ， 并 采用 向 量 时 钟 


(Vector Clock) 技术 来 进行 版 本 控制 ， 如 果 发 现 冲 突 版 本 的 存在 ， 则 
交 由 应 用 自己 进行 处 理 。 
一 个 向 量 时 钟 是 由 一 系列 〈 机 器 节点 编号 : 计数 器 ) 构成 的 ， 我 
们 以 图 7-40 中 的 例子 来 说 明 如 何 利 用 癌 量 时 钟 来 进行 版 本 控制 ， 图 中 所 
有 操作 都 是 针对 某 个 特定 的 记录 X 的 。 


mm (RJ (A:2), (B:D) 
机 器 A (A:3)(B:1) (CY 
nac (NO (A:2) (C:1) 

y' 


时 间 轴 


图 7-40 利用 向 量 时 钟 进行 版 本 控制 


假设 客户 端 W 对 记录 X 有 个 更 新 请 求 ， 而 这 个 请 求 由 机 器 A 来 负责 
执行 ， 则 形成 了 初始 的 向 量 时 钟 (A) ， 之 后 客户 端 W 又 有 对 记录 X 
的 更 新 请 求 ， 这 个 请 求 仍然 是 由 机 器 A 来 执行 的 ， 于 是 向 量 时 钟 变 为 
(A:2) ， (A:1) 和 (A:2) 存在 因果 关系 ， (A:2) 是 最 新 版 本 的 数 
H, m (A:1) 可 以 被 废弃 。 如 果 在 机 器 B 上 存在 一 个 记录 X 的 副本 ， 
同一 客户 端 W 继 续 要 求 更 新 记录 X， 此 次 的 请 求 由 机 器 B 来 负责 执行 ， 
则 机 器 B 将 更 新 写 入 副本 中 ， 向 量 时 钟 更 新 为 (A:2) ， (Bil) 。 如 果 
与 此 同时 ， 另 外 一 个 客户 端 T 请 求 更 新 记录 X， 而 这 次 的 请 求 由 机 器 C 
负责 ， 则 在 机 器 C 上 形成 了 向 量 时 钟 (A:2) , (C:1) ， 假 如 此 时 有 客 
户 端 读 取 记录 X， 会 发 现在 机 器 B 和 机 器 C 上 存在 两 个 有 冲突 的 版 本 ， 
Dynamo 的 设计 思路 是 由 客户 端 自己 解决 这 种 冲突 。 如 果 客 户 端 成 功 解 
决 冲 突 ， 向 量 时 钟 转换 为 (A:2) ， (Bil) ， (C1) ， 之 后 再 次 有 对 
记录 X 的 更 新 请 求 ， 并 且 是 机 器 A 负 责 执 行 ， 则 向 量 时 钟 进 化 为 
(A:3) , (Bil) ，(C:1) ° 

Dynamo 就 是 采用 这 种 向 量 时 钟 控制 版 本 并 发 现 版 本 冲突 ， 而 由 客 
户 端 解决 版 本 冲突 来 保持 数据 的 一 致 性 的 。 

Dynamo 在 实现 云 存 储 系 统 时 采取 或 引入 一 系列 的 新 技术 ， 除 了 以 
上 介绍 的 内 容 外 ， 还 有 其 他 技术 ， 比 如 利用 Gossip 协 议 来 发 现 新 加 入 的 
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710 PNUTS 云 存储 系统 


PNUTS 是 Yahoo 公 司 构建 的 提供 在 线 数据 服务 的 云 存 储 系 统 ， 与 其 
他 的 海量 云 存储 系统 相似 ，PNUTS 采 取 了 弱 一 致 性 模型 ， 以 这 种 宽松 
站 换取 系统 更 好 的 可 扩展 性 、 高 可 用 性 及 强 容错 


之 所 以 讲解 PNUTS 系 统 ， 是 因为 这 个 云 存 储 平台 有 自己 的 特点 ， 
具有 代表 性 ， 具 体 而 言 ，PNUTS 在 以 下 几 方面 有 其 特色 。 

1. 这 个 云 存储 平台 支持 在 线 实时 请 求 的 响应 ， 前 面 介绍 的 Google 
的 BigTable 等 云 存储 架构 从 其 设计 原理 来 说 ， 更 适合 对 实时 性 要 求 不 高 
的 后 台 计 算 。 

2. PNUTS 支 持 多 数据 中 心 的 分 布 式 存储 和 数据 备份 与 同步 。 

3. 很 多 云 存 储 系统 对 于 数据 更 新 ， 采 取 先 写 入 系统 Log 文 件 ， 事 
后 回放 (Replay) 的 方式 来 保证 数据 操作 的 容错 性 。PNUTS 则 采取 了 
消息 代理 的 机 制 来 保证 这 一 点 ， 虽 然 从 本 质 上 说 也 类 似 于 Log 回 放 机 
制 ， 但 是 其 表现 形式 并 不 相同 。 

a E 
法 2 


PNUTS 的 数据 模型 类 似 于 BigTable 的 数据 模型 ， 以 行为 一 个 数据 单 
位 ， 即 一 条 记录 ， 每 条 记录 有 不 同 的 属性 作为 列 ， 同 时 是 模式 目 由 的 
列 属性 方式 ， 但 是 区 别 是 PNUTS 数 据 记 有 录 十 二 维 表 ， 不 你 留 数 据 的 不 
同时 间 版 本 信息 。 


7.10.1 PNUTS 整 体 架构 


PNUTS 文 持 数 据 的 多 数据 中 心 部 署 ， 每 个 数据 中 心 被 称 做 一 个 区 
jk (Region) ， 每 个 区 域 所 部 署 的 系统 都 是 完全 相同 的 ， 每 条 记录 在 
每 个 区 域 都 有 相应 的 备份 (参考 图 7-41) 。 每 个 区 域内 主要 包含 3 个 基 
本 单元 : 子 表 控制 硕 、 数 据 路 由 万 和 存储 单元 ， 其 中 存储 单元 负责 实 
际 数据 的 存储 ， 其 他 两 个 部 分 起 到 数据 管理 的 作用 ， 消 妃 代 理 则 横 跨 
多 个 区 域 ， 主 要 负责 数据 在 不 同 区域 的 更 狐 与 同步 。 


图 7-41 PNUTS 整 体 架构 图 


7.10.2 ”存储 单元 


存储 单元 负责 实际 数据 的 存储 ， 对 于 每 个 二 维 数 据 表格 ， 若 干 条 
记录 组 成 一 个 子 表 (Tablet) ， 每 个 存储 单元 负责 存储 几 百 个 不 同 的 子 
表 ， 在 具体 某 个 区 域内 ， 只 保留 一 份子 表 。 数 据 的 隐 余 存储 是 通过 不 
同 区 域 备份 来 实现 的 ， 即 每 条 记录 在 每 个 区 域 都 有 一 个 备份 。 


PNUTS HE RRM TF Xl 有 两 种 不 同 的 方式 : 有 序 划 分 和 
哈 希 划分 。 所 谓 有 序 划分 ， 就 是 按照 记录 主键 排序 ， 然 后 将 连续 的 一 
段 记录 划分 成 一 个 子 表 ， 每 个 子 表 内 的 记录 主键 仍然 是 有 序 的 。 对 于 
这 种 类 型 的 子 表 ，PNUTS 采 用 MySQL 数 据 库 的 方式 存储 。 图 7-42 是 这 
种 划分 方式 的 示意 图 ， 比 如 子 表 2 存储 了 主键 范围 在 banana 到 grape 内 的 
记录 ， 其 他 子 表 含义 类 似 。 


图 7-42 ”有 序 划分 子 表 的 示意 图 


险 硕 划 分 基本 思路 与 Dynomo 系 统 的 数据 划分 方式 类 似 ， 即 对 所 有 
记录 的 主键 进行 哈 希 计算 ， 将 所 有 哈 希 值 看 做 一 个 闭环 ， 将 这 个 闭环 
切割 ， 形 成 不 同 的 子 表 (参见 图 7-43) ° 


图 7-43” 哈 希 划分 子 表 


7.10.3” 子 表 控 制 器 与 数据 路 由 器 


数据 路 由 器 负 责 查 找 菏 条 记 杂 所 在 存储 单元 的 位 置 ， 当 客户 端 程 
序 要 对 某 个 记录 进行 读 写 时 ， 会 询问 数据 路 由 器 应 该 和 哪个 存储 单 
元 通信 ， 数 据 路 由 器 在 内 存 保留 记录 主键 所 在 存储 单元 的 映射 表 ， 通 
过 查找 映射 表 ， 告 知客 户 端 存 储 单元 地 址 。 之 后 客户 端 程序 和 存储 单 
元 联系 进行 数据 读 取 操作 (参考 图 7-44) 。 


图 7-44 “ 子 表 控制 器 与 数据 路 由 器 


数据 路 由 需 的 映射 表 来 和 目 于 子 表 控 制 历 ， 子 表 探 制 夯 负责 存储 单 
元 的 管理 ， 比 如 负载 均衡 或 者 对 子 表 进 行 分 裂 等 操作 ， 之 后 会 修改 对 
应 的 映射 表 ， 数 据 路 由 器 周期 性 地 从 子 表 控 制 器 获得 更 新 后 的 映射 
表 。 如 采 数 据 路 由 右 的 数据 没有 及 时 与 子 表 控制 器 的 映射 表 保 持 一 
致 ， 某 个 客户 端 此 时 有 读 取 请 求 ， 数 据 路 由 邵 会 返回 一 个 过 期 的 存储 
单元 地 址 ， 之 后 客户 端 和 存储 单元 联系 ， 存 储 单元 会 报错 ， 此 时 数据 
路 由 需 知 道 自己 的 数据 过 期 ， 会 从 子 表 控 制 锻 处 更 新 新 的 映射 表 。 


7.10.4 ”雅虎 消息 代理 
雅虎 消息 代理 负责 数据 的 更 新 与 同步 ， 来 保持 记录 数据 的 一 致 


性 。 雅 虎 消息 代理 采取 发 布 了 订阅 的 消息 队列 方式 ， 并 且 横 跨 不 同 数 
据 中 心 ， 以 保持 不 同 数据 中 心 的 数据 一 致 (参考 图 7-45) 。 


图 7-45 ”数据 更 新 与 同步 


前 文 讲 过 ， 每 条 记 杂 在 同一 个 区 域内 没有 副本 ， 而 在 其 他 数据 中 
心 各 目 有 一 份 副 本 存在 ， 图 7-45 中 假设 有 3 个 数据 中 心 ， 所 以 每 条 记录 
在 不 同 数据 中 心 共有 3 个 备份 ， 其 中 某 个 记录 作为 主 记录 ， 其 他 两 个 作 
为 备份 记录 ， 所 有 对 记 杂 的 更 新 操作 都 由 主 记 杂 来 完成 ， 主 记 杂 在 更 
新 数据 后 ， 即 向 雅虎 消息 代理 发 布 一 条 数据 更 新 信息 ， 发 布 成 功 即 可 
认为 数据 更 新 完成 ， 之 后 由 雅虎 消息 代理 负责 将 同样 的 更 新 操作 体现 
到 其 他 两 个 备份 记录 上 ， 和 雅虎 消息 队列 可 以 保证 这 种 更 新 一 定 可 以 正 
确 完 成 ， 这 样 就 实现 了 数据 的 一 任性 。 如 果 某 个 客户 端 对 备份 记录 发 
出 更 新 数据 的 请 求 ， 备 份 记录 会 将 这 个 更 新 操作 引导 到 主 记录 ， 由 主 
记录 来 完成 这 种 更 新 操作 。 

从 上 述 过 程 可 以 看 出 ， 只 要 主 记录 完成 更 新 操作 并 发 布 消息 成 
功 ， 即 可 认为 更 新 操作 成 功 完成 ， 之 后 的 数据 一 致 性 由 雅虎 消息 代理 
来 保证 ， 这 是 为 何 PNUTS 可 以 实时 啊 应 用 户 请 求 的 关键 。 


7.10.5 “数据 一 致 性 


PNUTS 采 取 了 记录 级 别 的 时 间 轴 一 致 性 ， 前 文 讲述 过 ， 所 有 更 新 
操作 都 由 主 记录 来 完成 ， 雅 虎 消息 代理 负责 按照 相同 的 更 新 顺序 来 更 


新 所 有 其 他 备份 记录 。 

图 7-46 展 示 了 这 种 时 间 轴 一 致 性 的 原理 ， 随 着 系统 时 间 问 前 推进 ， 
记录 不 断 被 更 新 ， 系 统 会 记载 当前 记录 的 版 本 信息 ， 随 着 更 新 的 不 断 
进行 ， 记 如 的 版 本 号 持续 增加 ， 在 某 个 时 间 点 ， 记 如 只 你 留 当 前 版 本 
的 数据 ， 但 是 由 于 备份 记录 和 主 记录 的 更 新 存在 时 间 差 ， 可 能 整个 
PNUTS 系 统 中 存在 多 个 版 本 的 记录 ,不 同 版 本 的 数据 由 版 本 号 可 以 区 


分 o 
记录 插入 BH Bi 更 新 更 新 更 新 删除 记录 
4 < - 4 - > 
V1.0 V1.1 V1.2 V1. V1.5 


时 间 轴 
图 7-46 ”时 间 轴 一 致 性 原理 


PNUTS 提 供 了 多 种 读 取 API 来 满足 不 同 应 用 的 不 同 需 求 ， 可 以 指定 
读 取 最 新 版 本 的 记录 ， 但 这 往往 需要 较 长 的 响应 时 间 ， 也 可 以 指定 任 
意 版 本 读 取 ， 这 会 加 快 系统 响应 时 间 ， 但 是 只 有 对 数据 一 致 性 不 敏感 
的 应 用 才能 这 么 做 ， 对 这 些 应 用 来 说 ， 即 使 数据 有 些 老 旧 也 不 会 有 太 
大 影响 。 此 外 ， 应 用 也 可 以 指定 读 取 记 录 版 本 号 ， 只 要 记录 本 喘 的 版 
本 号 大 于 指定 的 版 本 号 就 可 以 满足 要 求 (参考 图 7-47) 。PNUTS 提 供 
的 这 种 不 同 API 给 整个 系统 提供 了 灵活 性 。 

Read-Any Read-Critical(V1.2) Read -Latest 


老 版 本 记录 。。 ” 老 版 本 记录 最 新 版 本 记录 


Y Y Y 
V1.0 | V1.1 V1.2 v1.3 VLA V1.5 
时 间 轴 


图 7-47 PNUTS 支 持 灵活 读 取 操作 
7.11 HayStack 存 储 系统 


HayStack 是 Facebook 公 司 设计 开发 的 一 种 对 象 存储 系统 ， 这 里 的 对 
象 主要 指 用 户 上 传 的 图 片 数 据 。 作 为 一 个 社交 平台 ，Facebook 用 户 需 
要 设置 头像 或 者 与 朋友 们 分 享 图 片 ， 所 以 Facebook 面 临海 量 图 片 的 存 
储 和 读 取 更 新 等 任务 ， 目 前 Facebook 存 储 了 超过 2600 亿 的 图 片 数据 ， 
而 这 些 数据 的 存 取 与 管理 都 是 靠 HayStack 系 统 完成 的 。 

大 型 商业 互联 网 公司 对 于 类 似 于 HayStack 的 这 种 对 象 存 储 系统 
很 大 的 需求 ， 这 里 的 对 象 往往 指 满足 一 定性 质 的 媒体 类 型 ， 类 似 于 图 
片 数据 的 存储 有 其 目 身 特点 ， 典 型 的 特征 是 : 一 次 写 入 、 多 次 读 取 、 


从 不 更 改 、 很 少 删除 。 很 多 其 他 类 型 的 数据 也 有 此 种 特点 ， 比 如 邮件 
附件 、 视 频 文件 及 音频 文件 等 ， 一 般 将 这 种 数据 称 为 Blob 数 据 ， 对 应 
的 存储 可 以 称 为 Blob 存 储 系统 。 因 为 其 特点 是 读 多 改 少 ， 所 以 在 设计 
这 种 存储 系统 的 时 候 ， 保 证 读 取 效率 是 需要 重点 考虑 的 要 素 。 目 前 国 
内 的 淘宝 和 腾讯 等 大 型 互联 网 公司 也 独立 开发 了 类 似 的 存储 系统 ， 其 
实现 思路 应 该 与 HayStack 系 统 差 异 不 大 。 

为 了 减少 系统 读 取 压 力 ， 对 于 海量 的 静态 数据 请 求 ， 一 般 会 考虑 
使 用 CDN 来 缓存 热门 请 求 ， 对 于 这 样 大 量 的 请 求 由 CDN 系 统 就 可 以 满 
足 。HayStack 存 储 系统 的 初衷 是 作为 CDN 系 统 的 补充 ， 即 热门 请 求 由 
CDN 系 统 负责 ， 长 尾 的 图 片 数据 请 求 由 HayStack 系 统 负责 。 

由 于 图 片 数 据 请 求 具有 读 多 改 少 的 特点 ， 所 以 如 何 优化 图 片 的 读 
取 速 度 是 HayStack 系 统 的 设计 核心 。 一 般 读 取 一 张 图 片 需要 有 两 次 磁 
盘 读 操作 ， 首 先 从 磁盘 中 获得 图 片 的 元 数据 ， 根 据 元 数据 从 磁盘 中 读 
出 图 片 内 容 。 为 了 增加 读 取 速 度 ，HayStack 系 统 的 核心 目标 是 减少 读 
取 磁 盘 的 次 数 ， 将 所 有 图 片 内 容 放 入 内 存 显然 是 不 太 可 能 的 ， 所 以 可 
以 考虑 将 图 片 的 元 数据 放 入 内 存 中 ， 因 为 相 比 图 片 本 身 内 容 的 数据 量 
来 说 ， 图 片 的 元 数据 小 很 多 ， 将 所 有 图 片 的 元 数据 放 入 内 存 理论 上 是 
可 行 的 ， 这 样 就 可 以 将 两 次 磁盘 操作 减少 为 一 次 磁盘 操作 。 

但 是 实际 上 ， 尽 管 每 个 图 片 的 元 数据 量 不 大 ， 由 于 图 片 数量 太 
多 ， 导 致 内 存 仍然 放 不 下 这 么 大 的 数据 量 。HayStack 在 设计 时 ， 考 虑 
从 两 个 方面 来 减少 元 数据 的 总 体 数 量 ; 一 方面 由 多 个 图 片 数据 拼接 成 
一 个 数据 文件 ， 这 样 就 可 以 减少 用 于 管理 数据 的 数量 ， 另 一 方面 ， 一 
个 图 片 的 元 数据 包含 多 个 属性 信息 ，HayStack 考 虑 将 文件 系统 中 的 元 
数据 属性 减少 ， 只 保留 必需 的 属性 。 通 过 这 两 种 方式 即 可 在 内 存 保留 
所 有 图 片 的 元 数据 ， 原 先 的 两 次 磁盘 读 取 就 改 为 :元 数据 从 内 存 读 
取 ， 图 片 数 据 从 磁盘 读 取 。 通 过 这 种 方式 ， 有 效 减 少 了 磁盘 读 取 操 
作 ， 提 高 了 系统 性 能 。 


7.11.1 HayStack 整 体 架 构 


在 了 解 HayStack 染 构 之 前 ， 需 要 熟悉 相关 的 一 些 基本 概念 ， 首 先 
需要 了 解 什么 是 物理 卷 (Physical Volume) 72 48 4 (Logical 
Volume) ， 图 7-48 是 这 两 个 基本 概念 的 示意 图 。HayStack 存 储 系 统 由 很 
多 PC 构成 ， 每 个 机 器 的 人 磁盘 存储 奉 干 物理 卷 ， 前 面 讲 过 ， 为 了 减少 文 
件 元 数据 的 数量 ， 需 要 将 多 个 图 片 的 数据 存储 在 同一 个 文件 中 ， 这 里 
的 物理 卷 就 是 存储 多 个 图 片 数据 对 应 的 某 个 文件 ， 一 般 一 个 物理 卷 文 
件 大 小 为 100GB， 可 以 存储 上 百 万 个 图 片 数据 。 不 同 机 研 上 的 看 干 物 


理 卷 共 同 构成 一 个 逻辑 卷 ， 在 HayStack 的 存储 操作 过 程 中 ， 是 以 逻辑 
卷 为 单位 的 ， 对 于 一 个 待 存储 的 图 片 ， 会 同时 将 这 个 图 片 数 据 追 加 到 
某 个 逻辑 眷 对 应 的 多 个 物理 着 文件 末尾 。 之 所 以 要 这 么 做 ， 主 要 是 从 
数据 元 余 的 角度 考虑 的 ， 即 使 某 台 机 顺 宕 机 ， 或 者 因为 其 他 原因 不 可 
用 ， 还 可 以 从 其 他 机 器 的 物理 卷 中 读 出 图 片 信息 ， 这 种 数据 的 元 余 是 
海量 存储 系统 必须 考虑 的 。 


http://<CDN>/<Cache>/< HSID > /< 逻辑 


在 了 解 了 基本 概念 后 ， 我 们 来 看 下 HayStack 系 统 的 整体 架构 ( 参 
考 图 7-49) 。HayStack 由 3 个 部 分 构成 : HayStack 目 录 服 务 、HayStack 
缓存 系统 和 HayStack 存 储 系统 。 当 Facebook 用 户 访问 某 个 页 面 时 ， 目 录 
服务 会 为 其 中 的 每 个 图 片 构造 一 个 URL， 通 常 URL 由 几 个 部 分 构成 ， 
典型 的 URL 如 下 : 


HayStack 目 录 服 务 


浏览 器 


图 7-49 HayStack 系 统 的 整体 架构 


<CDN> 指 出 了 应 该 去 哪个 CDN 读 取 图 片 ，CDN 在 接收 到 这 个 请 求 
后 ， 在 内 部 根据 逻辑 卷 ID 和 图 片 ID 查找 图 片 ， 如 果 找 到 则 将 图 片 返 回 
给 用 户 ， 如 果 没 有 找到 ， 则 把 这 个 URL 的 <CDN> 部 分 去 掉 ， 将 改写 后 
的 URL 提 区 给 HayStack 缓 存 系 统 。 缓 存 系统 与 CDN 功 能 类 似 ， 首 移 在 
内 部 查找 图 片 信息 ， 如 果 没 有 找到 就 会 到 HayStack 存 储 系统 内 读 取 ， 
并 将 读 出 的 图 片 放 入 缓存 中 ， 之 后 将 图 片 数 据 返 回 给 用 户 。 这 里 需要 
注意 的 是 : 目录 服务 可 以 在 构造 URL 的 时 候 绕 过 CDN ， 直 接 从 缓存 系 
aa 这 样 做 的 目的 是 减轻 CDN 的 压力 ， 其 内 部 查找 过 程 是 一 样 

上 壕 是 HayStack 系 统 读 取 图 片 的 流程 ， 如 果 用 户 上 传 一 张 图 片 ， 
其 流程 可 参考 图 7-50。 当 用 户 请 求 上 传 图 片 时 ，Web 服 务 器 从 目录 服务 


中 得 到 一 个 允许 写 入 操作 的 逻辑 卷 ， 同 时 Web 服 务 器 赋予 这 个 图 片 唯一 
的 编号 ， 之 后 即 可 将 其 写 入 这 个 逻辑 着 对 应 的 多 个 物理 着 中 。 


HayStack 目 录 服务 


Web 服 务 器 


hitp:/Awww | 


图 7-50 用户 上 传 图 片 流 程 
7.11.2 ”目录 服务 


HayStack 的 目 孙 服务 是 采用 数据 库 实 现 的 ， 它 提供 多 种 功能 。 首 
和 完 ， 目 录 服 务 保存 了 从 逻辑 卷 到 物理 卷 的 映 冉 关系 表 ， 这 样 在 用 户 上 
传 图 片 和 读 取 图 片 时 可 以 找到 正确 的 文件 。 其 次 ， 目 好 服 务 提 供 了 
HayStack 存 储 系统 的 负载 均衡 功能 ， 保 证 图 片 写 入 和 读 取 在 不 同 机 器 
之 间 人 负载 是 相当 的 ， 不 至 于 出 现 机 右 之 间 忙 内 不 均 的 状况 。 再 次 ， 目 
杂 服 务 还 决定 是 将 用 户 请 求 直 接 提 有 交 给 缓存 系统 还 是 提交 给 CDN， 以 
此 来 对 这 两 者 接收 到 的 请 求 量 进行 均衡 。 此 外 ， 通 过 目录 服务 还 可 以 
知道 哪些 逻辑 着 古 只 读 的 ， 哪 些 逻 辑 着 可 以 写 入 。 在 有 些 情况 下 ， 菏 


些 逻 辑 疮 会 补 标 记 为 只 读 的 ， 比 如 其 物理 蔡 已 经 基本 人 被 写 满 或 者 存储 
系统 需要 进行 调试 的 时 候 。 


7.11.3 ”HayStack 缓 存 


HayStack 缓 存 从 功能 上 讲 与 CDN 是 一 致 的 ， 缓 存 接收 到 的 访问 请 
求 可 能 来 自 CDN， 也 可 能 直接 来 自用 户 浏 览 絮 请 求 。 在 其 内 部 实现 ， 
HayStack 采 用 哈 希 表 的 方式 存储 图 片 ID 和 其 对 应 的 数据 ， 如 果 在 缓存 
内 没有 找到 图 片 ， 则 从 HayStack 存 储 系统 中 读 取 图 片 并 加 入 缓存 中 ， 
之 后 将 图 片 内 容 传 给 CDN 或 者 直接 传递 给 用 户 。 


7.11.4 ”HayStack 存 储 系 统 


HayStack 存 储 系统 是 整个 系统 的 核心 组 成 部 分 。 对 于 某 台 存储 机 
来 说 ， 在 磁盘 存储 了 若干 物理 卷 文件 及 其 对 应 的 索引 文件 ， 在 内 存 为 
每 个 物理 卷 建立 一 张 映 射 表 ， 存 放 了 图 片 ID 到 元 数据 的 映射 信息 。 每 
个 图 片 的 元 数据 包括 删除 标记 位 、 在 物理 卷 中 的 文件 起 始 地 址 及 图 片 
大 小 ， 根 据 文件 起 始 位 置 和 图 片 大 小 就 可 以 将 图 片 信息 读 取 出 来 ( 参 
考 图 7-51 与 图 7-52) ° 


映射 表 1 


| 


超级 块 Needle1 Needle2 Needle 3 


映射 表 2 


图 7-51 ”HayStack 存 储 系统 


= 
mD 元 数据 | 
“sankey = 大 小 | 


图 7-52 ”映射 表 项 


对 于 每 个 物理 卷 文件 ， 由 一 个 超级 块 和 图 片 数据 组 成 (参考 图 7- 
51) ， 每 个 图 片 的 信息 被 称 为 一 个 Needle， 图 7-53 是 一 个 Needle 具 体 包 
含 的 图 片 属性 信息 ， 其 中 比较 重要 的 属性 信息 包括 图 片 唯一 标记 Key 和 和 
辅助 Key、 删 除 标记 位 、 图 片 大 小 及 图 片 数 据 ， 除 此 之 外 还 包含 一 些 管 
理 属性 及 数据 校 验 属性 。 
文件 头 魔 数 

Cookie 
Key 
辅助 Key 
标记 位 
大 小 


Needle 


图 7-53 Needle 结构 细节 


图 7-51 中 每 个 物理 卷 文件 配 有 一 个 专门 的 索引 文件 ， 这 个 索引 文件 
的 目的 是 为 了 在 机 右 重 新 启动 时 ， 能 够 快速 恢复 物理 卷 在 内 存 中 的 映 
呢 表 。 其 结构 与 物理 着 的 结构 非常 类 似 ， 也 是 由 一 个 超级 块 和 图 片 的 
Needle 信 息 构 成 ， 不 同 点 在 于 : 索引 文件 里 的 Needle 只 包含 少量 重要 信 
上 县， 不 包含 图 片 本 身 的 数据 (参考 图 7-54) 。 这 样 在 恢复 内 存 映 射 表 的 
时 候 ， 相 比 顺 序 扫描 非常 大 的 物理 卷 来 逐步 恢复 ， 从 索引 文件 恢复 的 
速度 会 快 很 多 。 


Needle 1 


Needle 2 


Needle 3 


~ 一 —— 


图 7-54 ”HayStack 索 引文 件 结构 


了 解 了 HayStack 的 基本 构成 ， 下 面 我 们 来 看 看 其 是 如 何 对 文件 信 
轧 进 行 存 取 的 。 

对 于 读 取 图 片 的 请 求 来 说 ，HayStack 缓 存 系统 会 向 存储 系统 提供 
图 片 的 逻辑 卷 ID 编号 及 图 片 ID 〈 由 Key 和 辅助 Key 构 成 ) ， 当 存储 系统 
接收 到 请 求 后 ， 会 在 内 存 中 的 物理 卷 映 射 表 中 查找 图 片 ID ， 如 果 找 
到 ， 则 根据 映射 表 保存 的 信息 获取 其 在 对 应 物理 卷 中 的 文件 起 始 位 置 
和 文件 大 小 ， 如 此 束 可 以 读 a 到 这 个 图 片 的 内 容 。 

对 于 上 传 图 片 请 求 ，HayStack 存 储 系统 根据 Web 服 务 占 传 过 来 的 图 
片 逻 辑 郑 ID 编号 及 图 片 人 DD 和 图 片 数 据 ， 将 这 个 图 片 信息 妃 加 a 到 对 应 的 
物理 着 文件 末尾 ， 同 时 在 内 存 的 映射 表 中 增加 相应 的 映射 信息 。 

如 傈 用 户 更 改 了 图 片 的 内 容 后 再 次 上 传 ，HayStack 存 储 系统 不 多 
许 黎 瘟 原先 图 片 信息 这 种 操作 ， 因 为 这 种 操作 产 重 影响 系统 效率 ， 将 
这 个 修改 的 图 片 当 做 一 个 新 的 图 片 妃 加 到 物理 卷 的 文件 末尾 ， 不 过 这 
个 冬 斤 的 ID 是 不 杰 的。 此 时 有 两 种 可 能 ， 一 种 情况 生 更 改 后 的 图 片 的 
逻辑 卷 ID 和 原始 图 片 的 逻辑 卷 ID 不 同 ， 这 样 更 新 图 片 会 写 入 不 同 的 物 
理 卷 中 ， 此 时 目录 服务 修改 图 片 ID 对 应 的 逻辑 卷 映 射 信息 ， 此 后 对 这 
个 图 片 的 请 求 就 直接 转换 到 更 新 后 的 图 片 ， 原 始 图 片 不 会 再 次 被 访 
问 ; 男 外 一 种 情况 是 更 改 后 图 片 的 逻辑 卷 与 原始 图 片 的 逻辑 耸 相 同 ， 
此 时 HayStack 存 储 系统 将 新 图 片 追加 到 对 应 的 物理 卷 末尾 ， 也 就 是 
说 ， 同 一 个 物理 卷 会 包含 图 片 的 新 旧 两 个 版 本 的 数据 ， 但 是 由 于 物理 
卷 古 顺序 追加 的 ， 所 以 更 改 后 的 图 片 在 物理 卷 中 的 文件 起 始 位 置 一 定 


大 于 原始 图 片 的 起 始 位 置 ，HayStack 在 接收 用 户 请 求 时 会 做 判断 ， 读 
和 这 样 就 保证 读 取 到 最 新 的 图 片 
X o 

如 果 用 户 删除 某 张 图 片 ，HayStack 系 统 的 操作 也 很 直观 ， 只 要 在 
内 存 映射 表 中 和 物理 卷 上 将 相应 的 删除 标记 位 置 做 出 标记 即 可 。 系 统 
会 在 适当 的 时 机 回收 这 些 被 删除 的 图 片 数 据 空间 。 

与 前 面 章节 讲述 的 云 存 储 系 统 比较 而 言 ，HayStack 相 对 人 简单 直 
观 。Facebook 在 实际 使 用 中 也 证 明了 这 种 Blob 存 储 系统 的 高 效 。 


本 章 提要 


CAP 和 BASE 原 则 是 理解 目前 云 存储 与 云 计 算 系 统 设计 思路 的 理 
从 系统 发 展 角度 来 说 ， 云 计算 系统 正在 逐步 地 融合 ACID 原则 
LAS o 

- 云 存 储 系统 的 数据 模型 主要 包含 简单 的 Key/Value 模 型 和 相对 复 

末 些 的 模式 目 由 式 数据 模型 。 
Google 公 司 公 布 的 云 存储 技术 包括 : GESLA ` Chubby th 

服务 、BigTable 及 MegaStore 等 一 系列 不 断 进化 的 存储 系统 。 主 从 式 设 
计 是 Google 公 司 在 很 多 系统 中 体现 出 来 的 设计 辕 学 。 

- Google =] A 78 AZ th EK A E & Map/Reduce ` Percolator Æ 
Pregel 等 互补 的 计算 模式 。 

 Dynamo 系 统 是 亚 马 示 公司 公开 的 云 存 储 系统 ， 采 取 了 对 等 式 设 
计 思 路 ， 并 且 在 其 系统 实现 引入 了 很 多 新 技术 。Google 公 司 的 主 从 式 
设计 思路 和 Dynamo 的 对 等 式 设 计 思 路 影响 了 很 多 实际 的 云 存 储 系统 。 

: PNUTS 是 雅虎 公司 设计 的 云 存 储 系 统 ， 跨 数据 中 心 存储 、 消 息 
代理 和 时 间 轴 一 致 性 等 方面 是 其 设计 特点 。 

HayStack 是 Facebook 公 司 用 来 存储 海量 网 族 数 据 的 云 存 储 系 
统 ， 这 种 Blob 式 存储 也 是 一 种 独 具 特 色 的 云 存 储 方案 。 
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AYU VE BB Le S| ee RY BE, T 
商业 利益 驱使 ， 很 多 网 站 站 长 会 针对 搜索 引擎 排名 进行 分 析 ， 并 采取 
一 些 手 段 来 提高 网 站 排名 ， 这 种 行为 本 吴 无 可 厚 非 ， 很 多 优化 行为 是 
符合 搜索 引擎 排序 规则 的 ， 但 是 也 存在 一 些 恶意 的 优化 行为 ， 通 过 特 
殊 手段 将 网 页 的 搜索 排名 提高 到 与 其 网 页 质量 不 相称 的 位 置 ， 这 样 会 
严重 影响 搜索 引擎 用 户 的 搜索 体 长 。 而 搜索 引擎 为 了 保证 排名 的 公正 
性 ， 也 需要 对 作 兹 行为 进行 识别 和 处 六 。 所 请 “ 道 高 一 尺 ， 魔 高 一 
丈 ”， 只 要 这 种 经 济 利益 存在 ， 作 兹 与 反 作 汪 会 一 直 作为 搜索 引擎 领域 
的 斗争 而 存在 下 去 。 

本 章 主要 讲解 目前 常见 的 一 些 互联 网 网 页 作 束 方法 及 搜索 引擎 公 
司 对 应 的 反 制 措施 。 从 大 的 分 类 来 说 ， 比 较 常 见 的 作 浆 方 法 包括 : 内 
AVENE ~ PERIERE > Bou EME Re ELS LESERT Web 2.07 FEAT IZ ° F 
TR FR AN 2 AR 5 AA EA ET te EE, AREER IP 
FE LOBE EHIE R BIER TE SA FAR TL ER REA HE 
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搜索 引擎 排名 中 获得 与 其 网 页 不 相称 的 高 排名 。 搜 索引 擎 排名 一 般 包 
人 台 了 内 容 相似 性 和 链接 重要 性 计算 ， 内 容 作 弊 主要 针对 的 是 搜索 引擎 
排序 算法 中 的 内 容 相似 性 计算 部 分 ， 通 过 故意 加 大 目标 词 词 频 ， 或 者 
在 网 页 重要 位 置 引入 与 网 页 内 容 无 天 的 单词 来 影响 搜索 结 采 排名 。 


8.1.1 常见 内 容 作 潍 手 段 
比较 常见 的 内 容 作 凉 方 式 包括 如 下 几 种 。 
1. 关键 词 重复 


对 于 作 几 者 关心 的 目标 关键 词 ， 大 量 重 复 设置 在 页 面 内 容 中 。 因 
为 词 频 是 搜索 引擎 相似 度 计 算 中 必然 会 考虑 的 因子 ， 关 键 词 重 复 本 质 
上 是 通过 提高 目标 关键 词 的 词 频 来 影响 搜索 引擎 内 容 相 似 性 排名 的 。 


2. 无 关 查 询 词 作 浆 


为 了 能 够 尽 可 能 多 地 吸引 搜索 流量 ， 作 兹 者 在 页 面 内 容 中 增加 很 
多 和 页 面 主题 无 关 的 关键 词 ， 这 本 质 上 也 是 一 种 词 频 作 泛 ， 即 将 原先 
为 0 的 单词 词 频 增加 人 到 非 0 词 频 ， 以 此 吸引 更 多 搜索 引擎 流量 。 

比如 有 的 作 兹 者 在 网 页 的 末端 以 不 可 见 的 方式 加 入 一 堆 单 词 词 
表 ， 也 有 作 兹 者 在 正文 内 容 插 入 某 些 热 | ] 查 询 词 ， 其 至 有 些 页 面 内 容 
ensign escent nar ele awed al 


3. 图 片 alt 标 签 文本 作 浆 


alt 标 签 原 本 是 作为 图 片 描述 信息 来 使 用 的 ， 一 般 不 会 在 HTML 页 面 
显示 ， 除 非 用 户 将 鼠标 放 在 图 片上 ， 但 是 搜索 引擎 会 利用 这 个 信息 ， 
所 以 有 些 作 浆 着 将 alt 标 等 的 内 容 以 作 况 词汇 来 填充 ， 达 到 吸引 更 多 搜 
索 流 量 的 目的 。 


4. 网 页 标题 作弊 

网 页 标题 作为 搬 述 网 页 内 容 的 综述 性 信息 ， 对 于 判断 一 个 网 页 所 
讲述 的 主题 是 非常 重要 的 启发 因素 ， 所 以 搜索 引擎 在 计算 相似 性 得 分 
上 时， 往往 会 增加 标题 词汇 的 得 分 权重 。 作 次 者 利用 这 一 点 ， 将 与 网 页 
主题 无 关 的 目标 词 重 复 放 置 在 标题 位 置 来 获得 好 的 排名 。 

5. AMEZAA 


网 页 不 像 普 通 格式 的 文本 ， 是 带 有 HTML 标 签 的 ， 而 有 些 HTML 标 
签 代表 了 强调 内 容重 要 性 的 含义 ， 比 如 加 粗 标 记 <b>、</b>， 段 落 标 题 


<h>、</h>， 字 体 大 小 标记 等 。 搜 索引 敬一 般 会 利用 这 些 信息 进行 排 
序 ， 因 为 这 些 标记 因素 能 够 更 好 地 体现 网 页 的 内 容 所 表现 的 主题 信 
和 


6. 网 页 元 信息 作 兹 


网 页 元 信息 ， 比 如 网 页 内 容 描 述 区 (Meta Description) 和 网 页 内 
容 关 键 词 区 (Meta Keyword) 是 供 制作 网 页 的 人 对 网 页 主题 信息 进行 
简短 描述 的 ， 同 以 上 情况 类 似 ， 作 兹 者 往往 也 会 通过 在 其 中 插入 作 潍 
关键 词 来 影响 网 页 排名 。 

tL) ELA OL EMR kt, BAe, FHEAE 
WS AE BR LR IL 。 

1. 增加 目标 作弊 词 词 频 来 影 啊 排名 。 

2. 增加 主题 无 关内 容 或 者 热门 查询 吸引 流量 。 

3. 关键 位 置 插 入 目标 作弊 词 影 啊 排 名 。 


8.1.2 ARR (Content Farm) 


Google 在 2011 年 2 月 高 调 宣布 针对 低 质量 网 页 内 容 调整 排序 算法 ， 
据 报 道 此 算法 影响 了 大 约 11.82 的 网 页 排名 ， 而 这 项 调整 措施 是 专门 针 
对 以 Demand Media 网 站 为 代表 的 内 容 农场 作 浆 手法 的 。 

图 8-1 是 内 容 农场 运作 模式 的 示意 图 ， 内 容 农 场 运 划 者 廉价 雇佣 大 
量 自由 职业 者 ， 支 持 他 们 付费 写作 ， 但 是 写作 内 容 普 衣 质量 低下 ， 很 
多 文章 是 通过 复制 稍 加 修改 来 完成 的 ， 但 是 他 们 会 研究 搜索 引擎 的 热 
门 搜 索 词 等 ， 并 有 机 地 将 这 些 词汇 添加 到 写作 内 容 中 。 这 样 ， 普 通 搜 
索引 擎 用 户 在 搜索 时 ， 会 被 吸引 进入 内 容 农 场 网 站 ， 通 过 大 量 低 质量 
内 容 吸 引流 量 ， 内 容 农场 可 以 赚 取 广告 费用 。 


研究 热门 关键 词 付费 写作 


J sse 由 


引入 流量 Demand Media 广告 商 


图 8-1 内 容 农场 运营 模式 


与 传统 的 内 容 作 葛 方式 相 比 ， 内 容 农场 不 采用 机 天 拼接 内 容 等 机 
械 方 式 ， 而 是 雇 人 人 员 写 作 ， 但 站 由 于 写作 者 素质 等 原因 决定 了 其 发 
布 内 容 质 量 低下 ， 这 种 作 葬 方式 搜索 引擎 往往 难以 给 出 是 否 作 竞 的 明 
MIRE, 但 是 又 产 重 影响 搜索 结 采 质量 ， 所 以 是 一 种 很 难处 理 的 作 丈 


手法 = 


8.2 PERE EMR 


MREZE, ce DATA a es BU x | SR PR TE 
分 析 技 术 ， 所 以 通过 操纵 页 面 之 间 的 链接 关系 ， 或 者 操纵 页 面 之 间 的 
链接 销 文 字 ， 以 此 来 增加 链接 排序 因子 的 得 分 ， 并 影响 搜索 结果 排名 
U o 常见 的 链接 作 次 方法 众多 ， 此 节 简 述 几 种 比较 流行 的 作 
is 法 。 


1. 链接 农场 (Link Farm) 


为 了 提高 网 页 的 搜索 引擎 链接 排名 ， 链 接 农场 构建 了 大 量 互 相 紧 
密 链 接 的 网 页 集合 ， 期 望 能 够 利用 搜索 引擎 链接 算法 的 机 制 ， 通 过 大 
量 相互 的 链接 来 提高 网 页 排名 。 链 接 农 场 内 的 页 面 链接 密度 极 高 ， 任 
可 能 存在 互相 指向 的 链接 。 图 8-2 展 示 了 一 个 精心 构建 的 
JE TK z 


图 8-2 链接 农场 


2. GoogleseXF (Google Bombing) 


AFET TA] TP a ei le SC, lt fs EE EL 
了 被 指向 网 页 的 内 容 主题 ， 所 以 搜索 引擎 往往 会 在 排序 算法 中 利用 这 


作 兹 者 通过 精心 设置 锚 文 字 内 容 来 诱导 搜索 引擎 给 予 日 标 网 页 较 
高 排名 ， 一 般 作 弊 者 设置 的 镭 文 字 和 目标 网 页 内 容 没 有 什么 关系 。 

几 年 前 曾经 有 个 著名 例子 ， 采 用 Google 缀 炸 来 操控 搜索 结果 排 
名 。 当 时 如 果 用 Google 搜 索 “miserable failure”， 会 发 现 排 在 第 2 位 的 搜 
索 结果 是 美国 时 任 总 统 小 布什 的 日 宫 页 面 ， 这 就 是 通过 构建 很 多 其 他 
网 页 ， 在 页 面 中 包含 链接 指向 目标 页 面 ， 其 链接 销 文 字 包 念 “miserable 
failure” 关 键 词 (参考 图 8-3 和 图 8-4) 所 达到 的 效果 。 通 过 这 种 方式 就 导 
致 了 人 们 看 到 的 搜索 结果 。 
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Preferences 
Goo le meren failure 
Google Search | Google Search | 
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Searched the web for miserable failure. Results 1- 10 of about 257,000. Search took 0.08 seconds 
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Home > History & Tours > Past Presidents > Jimmy Carter. Jimmy Carter 
Jimmy Carter aspired to make Govemment “competent and compassionate ... 
Description: Short biography from the official White House site 
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3. 交换 友情 链接 

作 浆 者 通过 和 其 他 网 站 交换 链接 ， 相互 指向 对 方 的 网 页 页 面 ， 以 
此 来 增加 网 页 排名 。 很 多 作弊 者 过 分 地 使 用 此 手段 ， 但 是 并 不 意味 着 
eee 交换 友情 链接 的 做 法 也 是 正常 网 站 的 
常规 措施 。 


4. 购买 链接 


有 些 作 浆 者 会 通过 购买 链接 的 方法 ， 即 花 钱 让 一 些 排名 较 高 的 网 
站 的 链接 指向 自己 的 网 页 ， 以 此 来 提 高 网 站 排名 。 


5. 购买 过 期 域名 


有 些 作 弊 者 会 购买 刚刚 过 期 的 域名， 因为 有 些 过 期 域名 本 号 的 
PageRank 排 名 是 很 高 的 ， 通 过 购买 域名 可 以 获得 高 价值 的 外 链 。 


6.“ 门 页 作弊 (Doorway Pages) 


“ 门 页 ”本 喘 不 包含 正文 内 容 ， 而 是 由 大 量 链接 构成 的 ， 而 这 些 链 
作 整 者 通过 制造 大 量 的 “ 门 页 ”来 提 
iby Z o 


8.3 Tba F 
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取 的 页 面 内 容 和 用 户 点 击 查 看 到 的 页 面 内 容 不 同 ， 以 这 种 方式 来 影响 
搜索 引擎 的 搜索 结 末 。 旬 见 的 页 面 隐藏 作 束 方式 有 如 下 几 种 。 


1. IP 地 址 隐形 作 浆 (IP Cloaking) 


网 页 拥有 者 在 服务 郁 端 记载 搜索 引 警 爬虫 的 卫 地 址 列表 ， 如 采 发 
现在 搜索 引擎 在 请 求 页 面 ， 则 会 推送 给 爬虫 一 个 伪造 的 网 页 内 容 ， 而 
如 有 宁 是 其 他 IP 地 址 ， 则 会 推送 另外 的 网 页 内 容 ， 这 个 页 面 往往 是 有 商 
NYE AES EPH DU TET e 


2. HTTP 请 求 隐形 作弊 (User Agent Cloaking) 


客户 端 和 服务 右 在 获取 网 页 页 面 的 时 候 遵 循 HITP 人 协议， 协议 中 有 
一 项 叫做 用 户 代理 项 (User Agent) 。 搜 索引 苟 聆 虫 往往 会 在 这 一 项 有 
明显 的 特征 〈 比 如 Google 礁 虫 此 项 可 能 是 : Googlebot/2.1) ， 服 务 器 如 
各 判断 是 搜索 引擎 疏 虫 则 会 推送 与 用 户 看 到 的 不 同 的 页 面 内 容 。 

图 8-5 是 一 个 HTTP 请 求 隐藏 作 兹 的 例子 ， 作 兹 网 站 服务 絮 推 送 给 搜 
索引 擎 爬虫 的 页 面 是 讲述 减肥 食品 的 内 容 ， 而 推送 给 页 面 访问 者 的 则 
是 减肥 产品 销售 推广 页 面 。 这 样 当 用 户 在 搜索 减肥 知识 的 时 候 就 会 直 
接 访问 减肥 产品 页 面 ， 从 而 达到 作 兹 者 的 商业 目的 。 


Weight Loss & Slimming 
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3. 网 页 重 定向 
作 闵 者 使 搜索 引擎 索引 某 个 页 面 内 容 ， 但 是 如 果 是 用 户 访 问 则 将 


页 面 重 定向 到 一 个 新 的 页 面 。 
4. 页 面 内 容 隐藏 


通过 一 些 特殊 的 HTML 标 签 设置 ， 将 一 部 分 内 容 显 示 为 用 户 不 可 
DL, 但 是 对 于 搜索 引 敬 来 说 是 可 见 的 。 比 如 设置 网 页 字体 前 景色 和 背 
景色 相同 ， 或 者 在 CSS 中 加 入 不 可 见 层 来 隐藏 页 面 内 容 。 将 隐藏 的 内 容 
eee eee ae 


8.4 Web 2.0 作 次 方法 
随 着 Web 2.0 大 潮 的 兴起 ， 以 用 户 为 中 心 的 信息 产生 和 消费 模式 日 


益 流 行 ， 这 些 产 品 和 应 用 往往 以 用 户 产 生 内 容 、 内 容 分 享 与 协作 、 社 
会 化 网 络 等 作为 基本 特征 ， 比 如 博客 、 图 片 分 译 网 站 、Wiki、SNS 网 站 


BOBS 。 针 对 大 量 的 Web 2.0 网 站 ， 也 出 现 了 相应 的 Web 2.07F ETT 
法 2 


1. 博客 作弊 


常见 的 博客 作 浆 有 3 种 : PERT (Spog) ` EZ TRIE TEBE A 
TrackBack 作 浆 。 作 弊 博 客 是 作弊 者 申请 博客 空间 ， 而 写作 的 博客 内 容 
用 于 诱导 搜索 引擎 或 者 博客 读 首 转 到 作 潍 者 布 望 提 升 排名 或 者 营销 的 
网 页 。 因 为 市 场 上 存在 大 量 的 博客 空间 提供 两 ， 可 以 免费 开 博 客 ， 所 
以 这 种 作 粗 成 本 很 低 ， 这 也 是 此 作弊 方式 比较 流行 的 一 个 原因 。 

博客 博 主 发 布 内 容 ， 往 往 允 许 观看 博客 的 用 户 发 表 评论 ， 有 些 作 
整 者 利用 这 一 点 ， 在 博客 评论 内 容 里 推广 产品 或 者 增加 指 辐 推 广 网 页 
的 链接 地 址 ， 这 是 非常 常见 的 博客 评论 作弊 方式 ， 这 种 方式 在 论坛 和 
微 博 等 场合 中 也 非常 第 见 。 

TrackBack 机 制定 博客 作者 之 间 相 互 引用 通知 的 机 制 。 比 如 博客 A 
发 表 了 一 篇 博文 ， 之 后 博客 B 看 到 这 篇 文章 后 ， 发 表 了 一 篇 主题 类 似 的 
博文 ， 并 在 文中 使 用 链接 引用 博客 A 的 博文 ， 如 果 两 者 的 博客 系统 都 文 
持 TrackBak 协 议 ， 则 博客 系统 会 自动 在 博客 A 的 文章 后 增加 指向 博客 B 
新 博文 的 链接 。 博 客 发 布 系统 支持 TrackBack 协 议 的 初衷 是 引导 博客 群 
体形 成 讨论 氛围 ， 不 过 很 多 作 兹 者 利用 这 一 点 ， 使 用 目 动 TrackBack 群 
ee 
加 的 让 会 。 


2. PEPER 


目前 很 多 网 站 允许 商品 使 用 者 对 所 消费 的 商品 或 者 服务 做 出 评 
Gr, FRALEY BP EKA ED” o AYER TT PT Ah AER 
道 ， 作 次 者 要 么 在 商品 评论 里 面 加 入 与 所 评论 商品 无 关 的 广告 内 容 来 
推广 网 站 ， 要 么 提供 虚假 点 评 ， 比 如 对 较 差 的 产品 给 予 较 高 评价 或 者 
打击 苋 争 对 手 产 品 等 。 


3. 标签 (Tag) (EM 


在 一 些 资源 共享 网 站 〈 比 如 视频 共享 、 图 片 共享 等 ) ， 往 往 允 许 
用 户 为 资源 打上 一 些 标 签 ， 来 对 所 分 享 内 容 进行 主题 说 明 ， 其 他 用 户 
可 以 使 用 标签 搜索 等 方式 找到 这 些 资源 。 作 兹 者 往往 会 在 标签 里 插入 
推广 内 容 ， 这 样 可 以 吸引 流量 。 


4. SNSfERE 


随 着 Facebook 等 SNS 平 台 的 日 益 流 行 ， 在 SNS 平 台 上 作弊 也 逐渐 发 
展 起 来 。 一 种 典型 的 SNS 作 弊 手 段 是 用 户 个 人 描述 信息 (Profile) 作 
上 浆 。 人 作弊 者 建立 一 个 虚假 的 个 人 摘 述 ， 在 其 描述 部 分 利用 色情 等 信息 
A Mi a 0 


5. WRI 


微 博 是 个 人 信息 发 布 平 台 ， 以 信息 发 布 的 及 时 性 吸引 了 大 量 的 用 
户 。 同 样 地 ， 作 和 疼 者 也 会 利用 这 个 平台 来 作 潍 。 一 种 典型 的 作 商 方式 
是 : 作 兹 者 大 量 关 注 他 人 微 博 ， 很 多 人 出 于 礼貌 也 会 将 其 作为 天 注 痢 
( 互 粉 行为 ) ， 在 吸引 到 一 定量 的 关注 者 后 ， 作 弊 者 会 发 布 广告 信 
人 

男 外 一 种 典型 的 作 次 方式 是 利用 微 博 搜索 平台 ， 作 兹 者 密切 关注 
A TRR, ZEKER MEEA REN, Eaa EE 
广 信息 ， 因 为 很 多 微 博 平台 默认 是 按照 时 间 发 布 先后 来 对 搜索 结 采 进 
Re ee eee eee Nae 
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8.5 反 作 弊 技术 的 整体 思路 


如 上 所 述 ， 目 前 搜索 引擎 作 浆 手段 五 伦 八 门 、 层 出 不 穷 ， 作 为 应 
对 方 的 搜索 引擎 ， 也 相应 调整 技术 思路 ， 不 断 有 针对 性 地 提出 反 作 蜂 
的 技术 方案 ， 所 以 如 条 整理 反 作 况 技术 方案 ， 会 发 现 技 术 方法 很 多 ， 
理 清 思 路 不 易 。 

尽管 如 此 ， 如 条 对 大 多 数 反 作弊 技术 深入 分 析 ， 会 发 现在 整体 技 
术 思 路 上 还 是 有 规律 可 循 的 。 从 基本 的 思路 角度 看 ， 可 以 将 反 作 浆 手 
段 大 致 划 分 为 以 下 3 种 : 信任 传播 模型 、 不 信任 传播 模型 和 有 异 单 发现 模 
型 。 其 中 前 两 种 技术 模型 可 以 进一步 抽象 归纳 为 “链接 分 析 ” 一 章 提 到 
的 子 集 传 播 模型 ， 为 了 简化 说 明 ， 此 处 不 再 痪 述 ， 而 是 直接 将 这 两 个 
子 模型 列 出 。 将 具体 算法 和 这 几 个 模型 建立 起 关系 ， 有 助 于 对 反 作 浆 
算法 的 宏观 思路 和 相互 联系 建立 起 清晰 的 概念 。 


8.5.1 ”信任 传播 模型 


图 8-6 展 示 了 信任 传播 模型 的 示意 图 。 所 谓 信任 传播 模型 ， 基 本 思 
路 如 下 : 在 海量 的 网 页 数据 中 ， 通 过 一 定 的 技术 手段 或 者 人 工 半 人 工 
手段 ， 从 中 筛选 出 部 分 完全 值得 信任 的 页 面 ， 也 就 是 肯定 不 会 作 咀 的 
页 面 《可 以 理解 为 白 名单 ) ， 算 法 以 这 些 白 名 单 内 的 页 面 作为 出 发 
点 ， 赋 了 予 日 名 单 内 的 页 面世 点 较 高 的 信任 度 分 值 ， 其 他 页 面 是 否 作 
次 ， 要 根据 其 和 白 名 单 内 节点 的 链接 关系 来 确定 。 白 名 单 内 市 点 通过 
链接 关系 将 信任 度 分 值 向 外 扩散 传播 ， 如 果菜 个 节点 最 后 得 到 的 信任 
度 分 值 高 于 一 定 国 值 ， 则 认为 没有 问题 ， 而 低 于 这 一 国 值 的 网 页 则 会 
被 认为 古 作 兹 网 页 。 


图 8-6 ”信任 传播 模型 示意 图 


很 多 算法 在 整体 流程 和 算法 框架 上 遵循 如 上 描述 ， 其 区 别 点 往往 
体现 在 以 下 两 方面 。 
_ a 如 何 获 得 最 初 的 信任 页 面子 集合 ， 个 同 的 方法 手段 可 能 有 郑 
Fr ° 


b. 信任 度 是 如 何 传播 的 ， 不 同 的 方法 可 能 有 细微 差异 。 


8.5.2 不 信任 传播 模型 


图 8-7 展 示 了 不 信任 传播 模型 的 整体 框架 示意 图 。 从 大 的 技术 框 染 
上 来 讲 ， 其 和 信任 传播 模型 是 相似 的 ， 最 大 的 区 别 在 于 :初始 的 页 面 
于 集合 不 是 值得 信任 的 页 面 节 点 ， 而 是 确认 存在 作 兹 行为 的 页 面 集 
合 ， 即 不 值得 信任 的 页 面 集 合 (可 以 理解 为 黑 名 单 ) 。 赋 予 黑 名 单 内 
页 面 广 点 不 信任 分 值 ， 通 过 链接 关系 将 这 种 不 信任 关系 传播 出 去 ， 如 
SEE eee Wee ete 
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图 8-7 不 信任 传播 模型 的 整体 框架 示意 图 


同样 ， 很 多 算法 可 以 归 入 这 一 模型 框架 ， 只 是 在 具体 实施 细节 方 
面 有 差异 ， 整 体 思 路 基本 一 致 。 


8.5.3 “异常 发 现 模型 
异常 发 现 模型 也 是 一 个 高 度 抽象 化 的 算法 框架 模型 ， 其 基本 假设 


认为 ， 作 账 网 页 必然 存在 有 异 于 正常 网 页 的 特征 ， 这 种 特征 有 可 能 是 
内 容 方面 的 ， 也 有 可 能 是 链接 关系 方面 的 。 而 制定 具体 算法 的 流程 往 


往 是 先 找到 一 些 作 次 的 网 页 集合 ， 分 析出 其 异常 特征 有 了 哪些， 然后 利 
用 这 些 异常 特征 来 识别 作 浆 网 页 。 

具体 来 说 ， 这 个 框架 模型 又 可 细 分 为 两 种 子 模型 ， 这 两 种 子 模型 
在 如 何 判 断 异 常 方面 有 不 同 的 考虑 角度 。 一 种 考虑 角度 比较 直观 ， 即 
直接 从 作 疾 网 页 包含 的 独特 特征 来 构建 算法 (参见 图 8-8) ; 另外 一 种 
角度 则 认为 不 正常 的 网 页 即 为 作 浆 网 页 ， 也 就 是 说 ， 是 通过 统计 等 手 
段 分 析 正 常 的 网 页 应 该 具备 哪些 特征 ， 如 果 网 页 不 具备 这 些 正常 网 页 
的 特征 ， 则 被 认为 是 作 浆 网 页 (参见 图 8-9) 。 图 8-8 和 图 8-9 体 现 了 这 
两 种 不 同 的 思路 。 


图 8-8 ”异常 发 现 模型 一 


图 8-9 ”异常 发 现 模 型 二 


RE SPATE DEIN l 但 是 不 论 采 取 哪 种 具体 算法 ， 其 实 都 
包含 了 一 些 基本 假设 ， 


a. FR (MOE EH ET 但 是 很 少 有 高 质量 
网 页 将 链接 指 癌 作 整 网站。 


b， 作 整 网 页 之 间 倾 向 于 互相 指 同 。 
很 多 算法 的 基本 思路 都 是 从 这 些 基 本 假设 出 发 来 构造 的 。 


8.6 ”通用 链接 反 作 弊 方法 


所 谓 通 用 链接 反 作 次 方法， 指 的 是 这 种 反 作 浆 方法 不 需要 针对 某 
种 具体 的 作 浆 方式 来 做 特征 分 析 ， 并 根据 分 析 结 采 去 构建 有 针对 性 的 
a 。 不 论 采 取 哪 种 链接 作弊 方法 ， 通 用 反 作 焉 方法 都 是 对 其 有 效 


上 下 内 容 介 绍 了 通用 反 作 吉 方法 的 整体 思路 ， 其 中 信任 传播 模 
型 、 不 信任 传播 模型 及 图 8-9 所 示 的 异常 发 现 模 型 有 一 个 共同 特点 ， 即 
不 需要 拿 到 作 疼 网 页 后 进行 单独 的 特征 分 析 ， 然 后 根据 分 析 结 果 构 建 
具体 算法 。 所 以 如 果 某 个 具体 反 作 束 方法 属于 上 述 3 种 模型 之 一 的 话 ， 
都 可 以 认为 是 一 种 通用 反 作 疼 方法 。 

我 们 分 别针 对 信任 传播 模型 、 不 信任 传播 模型 及 如 图 8-9 所 示 的 异 
党 发 现 模 型 介绍 3 个 代表 性 算法 ， 它 们 分 别 是 TrustRank 算 法 、BadRank 
算法 和 SpamRank 算 法 。 


8.6.1 TrustRank 算 法 


TrustRank 算 法 属于 信任 传播 模型 ， 基 本 遵循 信任 传播 模型 的 流 
程 ， 即 算法 流程 由 如 下 两 个 步 又 组 成 。 


步骤 一 :确定 值得 信任 的 网 页 集合 


TrustRank 算 法 需要 靠 人 工 审 核 来 判断 某 个 网 页 是 否 应 该 被 放 入 信 
任 网 页 集合 ， 考 虑 到 人 工 审核 工作 量 过 大 ， 所 以 提出 了 两 种 初 选 信任 
网 页 集合 的 策略 ， 在 初 选集 合 基 础 上 再 由 人 工 审 核 。 

- 初 选 策略 1: 高 PageRank 分 值 网 页 ， 即 认为 高 PageRank 得 分 的 网 
页 是 可 信赖 的 ， 所 以 可 以 对 网 页 计算 PageRank 值 后 ， 提 取 少 量 高 分 值 
网 页 作为 初 选 页 面 集合 。 


初 选 策略 2: WiPageRank (Inverse PageRank) ， 在 PageRank 计 
算 过 程 中 ， 是 根据 网 页 入 链 传 入 的 权 值 计算 的 ， 逆 PageRank 与 此 相 
反 ， 根据 网 页 的 出 链 传 出 的 权 值 计算 ， 即 先 将 网 页 之 间 的 链接 指向 天 
然后 计算 PageRank， 选 取得 分 较 高 的 一 部 分 页 面子 集 作 为 初 
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步骤 二 : 将 信任 分 值 从 白 名 单 网 页 按照 一 定 方式 传播 到 
其 他 网 页 


在 这 个 步骤 ，TrustRank 算 法 的 信任 传播 方式 基于 以 下 两 个 假设 。 

: 假设 1: 距离 可 信 网 页 越 近 越 值得 信任 ， 这 里 的 距离 指 的 是 通过 
多 少 步 链 接 中 转 可 以 通达 。 

假设 2: 一 个 高 质量 网 页 包含 的 出 链 越 少 ， 那 么 被 指向 的 网 页 是 
高 质量 网 页 的 可 能 性 越 大 。 反 过 来 ， 如 果 出 链 越 多 ， 则 被 指 癌 网 页 是 
高 质量 网 页 的 可 能 性 越 小 。 

基于 以 上 两 个 假设 ， 在 信任 传播 阶段 ，TrustRank 算 法 引入 了 信任 
衰减 因子 (Trust Dumpling) 和 信任 分 值 均 分 (Trust Splitting) 策略 。 

所 谓 信任 衰减 ， 即 距离 可 信和 网 页 越 远 的 网 页 ， 通 过 传播 得 到 的 信 
任 分 值 越 少 。 图 8-10 说 明了 这 个 策略 。 在 图 8-10 中 ， 节 扣 2 从 节点 1 传递 
得 到 信任 分 值 b， 节 点 3 因为 距离 节点 1 更 远 ， 所 以 从 节点 2 获得 的 分 值 
为 b 的 平方 ， 因 为 链接 中 传递 的 信任 分 值 都 在 0 到 1 之 间 ， 所 以 等 于 信任 
分 值 随 着 距离 的 增 大 获得 了 衰减 。 


图 8-10 ”信任 衰减 


所 谓 信任 分 值 均 分 策略 ， 即 将 网 页 获得 的 信任 分 值 按照 出 链 个 数 
平均 分 配 ， 如 果 一 个 网 页 有 K 个 出 链 ， 则 每 个 出 链 分 配 得 到 1K 的 信任 
分 值 ， 并 将 这 个 分 值 传递 给 出 链 指 癌 的 页 面 ， 图 8-11 说 明了 这 个 策略 。 
在 图 8-11 中 ， 市 点 1 和 市 点 2 的 信任 度 分 值 都 是 1， 市 点 1 有 两 个 出 链 ， 所 
以 每 个 出 链 分 配 得 到 1/2 的 信任 分 值 ， 节 点 2 有 3 个 出 链 ， 所 以 每 个 出 链 
获得 1/3 的 信任 分 值 ， 节 点 3 被 拉 点 1 和 市 把 2 同时 指向 ， 所 以 通过 传递 获 
得 了 5/6 的 信任 分 值 ， 克 点 3 再 将 目 己 获得 的 信任 分 值 依次 传递 出 去 。 


图 8-11 ”信任 分 值 均 分 


结合 以 上 两 个 传播 策略 可 以 在 页 面世 点 图 之 间 传 播 信 任 分 
值 ， 在 最 后 的 计算 结果 中 ， 低 于 一 定 信任 度 的 页 面 会 被 认为 是 作弊 网 


8.6.2 ”BadRank 算 法 


BadRank 据 传 是 Google 采 用 的 反 链接 作 浆 算法 。 它 是 一 种 典型 的 不 
信任 传播 模型 ， 即 首先 构建 作弊 网 页 集合 ， 之 后 利用 链接 关系 来 将 这 
种 不 信任 分 值 传递 到 其 他 网 页 。 

BadRank 包 含 的 基本 假设 是 : 如 果 一 个 网 页 将 其 链接 指向 作 浆 页 
面 ， 则 这 个 网 页 也 很 可 能 是 作弊 网 页 ;而 如 果 一 个 网 页 被 作弊 网 页 指 
可 ， 则 不 能 说 明 这 个 网 页 是 有 问题 的 ， 因 为 作 浆 网 页 也 经 常 将 其 链接 
指向 一 些 知名 网 站 。 所 以 BadRank 的 基本 思路 是 ， 找到 那些 有 链接 关系 
指向 已 知 作 浆 网 页 的 页 面 ， 这 些 页 面 很 可 能 也 是 作 阁 网 页 。 

BadRank 首 先 收 集 一 批 已 经 确认 的 作 浆 网 页 形成 作 疾 网 页 集合 ( 黑 
名 单 ) ， 黑 名 单 内 网 页 赋予 较 高 的 不 被 信任 分 值 ， 而 不 被 信任 分 值 是 
通过 网 页 的 链接 关系 来 进行 传播 的 ， 其 计算 过 程 与 PageRank 基 本 相 
同 ， 与 PageRank 不 同 的 是 ，PageRank 是 根据 网 页 的 出 链 来 进行 权 值 传 
播 ， 而 BadRank 是 按照 入 链 来 进行 权 值 传播 ， 所 以 可 以 将 BadRank 理 解 
为 首先 将 网 页 之 间 的 链接 指 同 关系 反 转 ， 假 设 页 面 A 有 链接 指向 页 面 


B, fa i a 由 B 指 同 A， 之 后 可 以 按照 PageRank 的 计算 方法 进 
行 计算 。 

BadRank 的 计算 思路 是 非常 有 代表 性 的 ， 后 续 提 出 的 ParentRank 及 
Anti-Trust PageRank 在 整体 思路 上 与 BadRank 是 一 致 的 ， 基 本 上 都 是 不 
信任 传播 模型 的 具体 实现 实例 。 

BadRank 的 计算 思路 很 明显 和 TrustRank 是 互补 的 ， 一 个 方法 是 从 
墨 名 单 出 发 传播 不 信任 关系 ， 另 外 一 个 是 从 白 名 单 出 发 传播 信任 天 
系 ， 所 以 两 者 有 天 然 的 互补 性 。 


8.6.3 SpamRank 


SpamRank ze — FH BE AY NF Az A ERE, EE 
Wi, HENE AY PA OL Be ERR FR DV VA Ta AE EPP, WSR SEE 
网 页 不 满足 这 些 特性 ， 则 可 以 被 认为 是 异常 的 ， 而 这 些 异 常 网 页 很 可 
能 是 作弊 网 页 。 

SpamRank 是 构建 在 PageRank 计 算 之 上 的 反 作 弊 算法 ，PageRank 是 
网 页 重要 性 评价 指标 ， 通 过 全 局 的 链接 关系 可 以 迭代 计算 网 页 的 最 终 
PageRank 值 。 对 于 某 个 网 页 A 来 说 ， 在 最 终 获 得 其 PageRank 值 后 ， 可 以 
分 析 获 得 哪些 网 页 对 于 页 面 A 的 最 终 PageRank 计 算 有 比较 重要 的 影 啊 ， 
这 些 网 页 被 称 为 网 页 A 的 支持 者 (Supporter) 。 

SpamRank 的 基本 假设 是 : 对 于 正常 页 面 来 说 ， 其 文 持 者 页 面 的 
PageRank 值 应 该 满足 Power-Law 统 计 分 布 ， 即 PageRank 值 有 大 有 小 。 而 
作 凉 网 页 则 不 然 ， 其 支持 者 页 面 的 PageRank 值 分 布 不 满足 Power-Law 分 
布 ， 具 有 如 下 3 个 特点 。 

1. 文 持 者 页 面 数 量 非常 巨大 。 

2. 文 持 者 页 面 的 PageRank 值 得 分 都 较 低 。 

3. 文 持 者 页 面 的 PageRank 值 都 落 在 一 个 较 小 的 浮动 范围 内 。 

SpamRank 束 是 利用 了 作 次 网 页 的 支持 者 PageRank 分 值 的 不 正常 分 
布 规律 来 目 动 发 现 可 能 的 作弊 网 页 的 。 首 移 计 算 网 页 的 文 持 页 面 有 哪 
些 ， 之 后 判断 其 文 持 页 面 的 PageRank 分 布 是 否 违反 了 Power-Law 分 布 ， 
对 于 那些 明显 违反 规律 的 页 面 作 为 可 疑 作 竞 页面 。 最 后 ， 类 似 于 
BadRank 的 思路 ， 通 过 这 些 可 疑 页 面 的 链接 关系 ， 发 现 更 多 可 能 有 问题 
WIPO, PEA Ay BERERE T° 

在 SpamRank 算 法 提出 后 ， 义 陆续 有 类 似 思路 的 算法 提出 ， 比 如 截 
itPageRank’-/& (Truncated PageRank) 等 在 基本 思想 上 和 SpamRank 算 


法 思路 基本 相近 。 这 些 都 是 比较 典型 的 符合 异 和 发 现 模型 的 反 作 束 算 
yE 
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8.7 ”专用 链接 反 作 浆 技术 


上 一 忆 所 述 的 通用 链接 反 作 弊 扩 术 与 具体 作弊 方法 无 天 ， 具 有 通 
用 性 ， 只 要 作弊 手段 采用 了 链接 分 机， 一般 都 会 有 一 定 的 识别 作用 。 
但 是 通用 性 的 代价 是 针对 某 些 具体 的 链接 作 葬 方法 的 ， 其 识别 效 末 因 
为 没有 针对 性 ， 所 以 可 能 不 会 太 好 ， 专 用 的 链接 反 作 葬 扩 术 则 十 非 芝 
有 针对 性 的 设计 算法 ， 往 往 效 果 较 好 。 本 下 人 商 述 针对 链接 农场 和 
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8.7.1 识别 链接 农场 


链接 农场 是 作弊 者 精心 构建 起 来 的 页 面 链 接 关 系 ， 和 正和 浊 的 链接 
必然 有 不 同 之 处 。 很 多 人 研究 通过 比较 正常 网 页 之 间 链 接 关 系 的 统计 规 
律 ， 同 时 人 研究 链接 农场 网 页 之 间 的 链接 关系 分 布 规律 ， 通 过 比较 两 者 
之 间 的 差异 来 识别 链接 农场 。 

识别 算法 比较 常用 的 统计 特征 包括 如 下 几 条 。 

1. 网 页 出 链 的 统计 分 布 规律 ， 正 常 网 页 的 出 链 满足 Power-law 分 
布 ， 作 浆 网 页 的 出 链 违反 该 分 布 。 

2. 网 页 入 链 的 统计 分 布 规律 ， 正 常 网 页 的 入 链 也 满足 Power-law 分 
布 ， 作 次 网 页 则 违反 该 分 布 。 

3. URL 名 称 统计 特征 ， 作 浆 网 页 的 网 址 倾 回 于 较 长 ， 包 含 更 多 的 
点 贺 线 和 数字 等 。 
人 
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5. 网 页 特征 会 随 着 时 间 变 化 ， 比 如 入 链 的 增长 率 、 出 链 的 增长 率 
等 ， 正 利 网 页 和 作 焉 网 页 在 这 些 变化 模式 上 坪 不 同 的 。 

除了 对 比 统计 特征 外 ， 还 可 以 利用 链接 农场 的 结构 特征 。 链 接 农 
场 的 一 个 结构 特征 是 农场 内 的 网 页 之 间 链 接头 系 非常 紧密 ， 这 也 是 可 
以 直接 用 来 进行 作 束 识 别 的 特征 。 使 用 一 些 紧密 链接 子 图 目 动 发 现 算 
法 ， 可 以 识别 出 这 些 紧密 链接 的 页 面子 匈 ， 研 究 表 明 这 种 紧密 链接 子 
图 中 很 大 比例 确实 是 由 作 星 网 页 构成 的 。 


8.7.2 ”识别 Google 故 炸 


Google 彼 炸 利用 了 指向 目标 网 页 的 销 文 字 来 操纵 搜索 结 末 排名 ， 
而 钵 文字 很 可 能 和 被 指 癌 的 页 面 没有 任何 语义 关系 ， 所 以 一 个 直观 的 
判断 方式 即 为 判断 锁 文 字 是 否 和 被 指 癌 页 面 有 语义 关系 ， 如 果 有 语义 
天 系 存 在 ， 则 被 判断 为 正 闻 链接 ， 否 则 可 被 判断 为 作 况 链接 。 

但 是 事实 上 由 于 销 文 字 都 比较 短小 ， 如 果 在 字面 上 和 被 指向 页 面 
RE per egeegr aera 
交大 难度 。 


8.8 识别 内 容 作 网 


上 述 章节 是 针对 链接 作 灿 方 法 的 一 些 可 能 反 制 方法 ， 本 蔬 统 述 针 
对 内 容 作 瑶 的 一 些 反 制 方法 。 针 对 内 容 作弊 ， 往 往 可 以 采用 一 些 局 发 
规则 或 者 内 容 统计 分 析 的 方式 进行 识别 。 

比如 对 于 重复 出 现 关 键 词 这 种 作 浆 方式 ， 可 以 判断 文本 内 一 定 大 
口中 十 否 连续 出 现 同 一 关键 词 ， 如 采 是 的 话 则 消除 挥 重 复出 现 

S 谷 o 
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页 中 句子 长 度 的 规律 、 停 用 词 的 分 布 规律 或 者 词性 分 布 规律 等 ， 通 过 
比较 页 面 内 容 统 计 属 性 钙 否 异常 来 识别 内 容 作 兹 的 情况 。 


8.9 baiki 


常见 的 隐藏 作 刺 方式 包括 页 面 隐藏 和 网 页 重 定向 ， 下 面 介 绍 一 些 
技术 思路 来 识别 隐藏 作 癣 网 页 。 


8.9.1 识别 页 面 隐藏 


页 面 隐藏 的 本 质 特征 是 癌 搜 索引 擎 爬虫 和 用 户 推送 不 同 内容 的 页 
面 。 所 以 一 个 直观 的 识别 这 种 作弊 方式 的 方法 束 旦 对 网 页 做 两 次 抓 
取 ， 第 1 次 是 正常 的 搜索 引擎 仆 虫 抓 取 ， 第 2 次 抓 取 则 以 模拟 人 工 访问 
网 页 的 方式 抓 取 。 如 采 两 次 抓 取 到 的 内 容 有 较 大 差异， 则 会 认为 是 作 
整 页 面 。 很 明显 ， 这 种 方法 虽然 有 效 ， 但 是 对 所 有 页 面 做 多 次 抓 取 的 
成 本 显然 非常 高 。 

考虑 到 以 上 方法 的 效率 问题 ， 人 研究 人 员 布 望 将 识别 范围 缩小 。 
为 作 次 者 大 部 具有 商业 动机 ， 所 以 他 们 认为 包含 一 些 热 1 门 查 询 ， 以 及 


具有 商业 价值 查询 词 的 页 面 更 可 能 会 采取 隐藏 作 浆 。 可 以 从 查询 日 志 
中 挖掘 最 热门 的 查询 ， 同 时 挖掘 出 能 够 引发 搜索 结果 中 出 现 “ 赞 助 商 链 
接 ” 的 商业 性 词汇 。 经 过 分 别 使 用 搜索 引 警 爬虫 和 模拟 人 工 访问 ， 多 次 
抓 取 排 在 搜索 引擎 结果 前 列 的 网 页 ， 并 比较 两 次 下 载 页 面 的 单词 重 伟 
度 。 人 研究 人 员 发 现 包含 商业 性 词汇 的 页 面 中 ， 如 果 网 站 采取 了 页 面 隐 
关 ， 则 有 982% 的 内 容 是 作 浆 页 面 ， 而 在 包含 热门 查询 词 的 网 页 中 ， 这 
个 比例 是 73%。 


8.9.2 ”识别 网 页 重 定向 


网 页 重 定向 是 很 容易 识别 的 ， 目 前 大 部 分 搜索 引 敬 对 于 采取 了 重 
RE FA) AP Bab eB AE AR Tc fe, 采取 了 重 定 问 的 网 页 未 必 
a AP EAE BP HL VA al] ES ERS ce MES PARTY AY 
问题 。 

Strider 系 统 给 出 了 根据 网 页 重 定 疝 来 识别 到 奈 哪 些 是 作 贬 网 页 的 解 
决 方案 。 这 个 系统 下 先 收集 一 批 作 弊 页 面 ， 然 后 根据 这 批 作 束 网 页 进 
行 扩展 ， 如 采 有 在 论坛 中 和 这 些 作 站 URL 经 划一 起 出 现 的 网 页 链接 ， 
会 逐步 将 其 扩充 进 可 疑 页 面 集 合 。 之 后 ， 依 次 访问 这 些 可 疑 URL， 并 
记 杂 下 访问 时 是 否 做 了 重 定向 及 重 定 癌 到 哪个 页 面 ， 如 琳 某 个 页 面 被 
很 多 可 疑 URL 重 定 辣 指 癌 ， 则 认为 这 个 重 定 辣 地 址 是 作 阁 网 页 ， 反 过 
来 ， 那 些 重 定 癌 到 这 个 作 兹 网 页 的 可 颖 URL 也 被 认为 是 作 兹 网 页 ， 其 
他 可 颖 URL 则 可 以 被 认为 是 正 第 网 页 。 


8.10 ”搜索 引擎 反 作 兹 综合 框 染 


只 要 操 纵 搜索 引擎 搜索 结 末 能 够 市 来 收益 ， 那 么 作弊 动机 束 会 始 
终 存在 ， 尤 其 是 在 网 络 襄 销 起 者 越 来 越 重要 年 传 作用 的 时 代 尤 其 如 
此 。 作 演 与 反 作 迪 古 相互 抑制 同时 也 是 相互 促进 的 一 个 互动 过 程 ,“ 道 
高 一 尺 ， 魔 高 一 丈 ” 的 故事 不 断 重 演 。 

本 章 前 述 内 容 主 要 是 以 技术 手段 来 进行 反 作 竞 ， 而 事实 上 纯粹 技 
术 手 段 目 前 是 无 法 彻 故 解决 作 兹 问题 的 ， 必 须 将 人 工 手段 和 技术 手段 
相互 结合 ， 才 能 取得 较 好 的 反 作 败 效果 。 技 术 手 段 可 以 分 为 相对 通用 
的 手段 和 比较 特殊 的 手段 ， 相 对 通用 的 手段 对 于 可 能 新 出 现 的 作 吉 手 
法 有 一 定 的 预防 能 力 ， 但 是 因为 其 通用 性 ， 所 以 针对 性 不 强 ， 对 等 殊 
的 作弊 方法 效 采 未 必 好 。 而 专用 的 反 作 弊 方法 往往 是 事后 诸 员 冠 ， 即 
只 有 作 表 行为 已 经 发 生 并 且 比 较 严 重 ， 才 可 能 归纳 作弊 特征 ， 采 取 事 
后 过 滤 的 方法 。 人 工 手段 则 与 技术 手段 有 很 强 的 互补 性 ， 可 以 在 新 的 


作弊 方式 一 出 现 就 被 人 发 现 ， 可 以 看 做 一 种 处 于 作弊 进行 时 的 预防 措 
施 。 所 以 从 时 间 维 度 考 虚 对 作 浆 方法 的 抑制 来 说 ， 通 用 反 作 几 方法 重 
在 预防 ， 人 工 手段 重 在 发 现 ， 而 专用 反 作 次 方法 重 在 事后 处 理 ， 其 有 
内 在 的 联系 和 互补 关系 存在 。 

一 个 有 效 的 搜索 引擎 反 作 浆 系统 一 定 古 一 个 综合 系统 ， 有 机 融合 
了 人 工 因素 、 通 用 技术 手段 和 专用 技术 手段 。 图 8-12 给 出 了 一 个 综合 反 
作 浆 系统 的 框架 ， 用 户 可 以 在 浏览 搜索 结果 甚至 是 上 网 浏览 时 随时 举 
报 作 次 网 页 ， 比 如 Google 推 出 了 浏览 器 搬 件 来 方便 用 户 举 报 ， 搜 索引 
擎 公司 内 部 会 有 专门 的 团队 来 审核 与 主动 发 现 可 颖 页面 ， 经 过 审核 确 
认 的 网 页 可 以 放 入 黑 名 单 或 者 日 名 单 中 。 


内 部 人 工 审查 — 党 用 户 举报 


图 8-12 ”综合 反 作 弊 框架 


通用 的 反 作 闽 方法 大 体 有 两 类 ， 一 种 类 似 于 BadRank 的 思路 ， 即 从 
墨 名 单 出 发 根据 链接 关系 探寻 哪些 是 有 问题 的 网 页 ， 另 外 一 种 类 似 于 
TrustRank 的 思路 ， 即 从 日 名 单 出 发 根据 链接 关系 排除 挥 那 些 没有 问题 


的 网 页 。 两 者 显然 有 互补 关系 ， 通 过 两 者 搭配 可 以 形成 有 效 的 通用 反 
作 束 屏障。 这 种 通用 方法 的 好 处 是 具有 预防 性 ， 哪 怕 是 新 出 现 的 作 丈 
方式 ， 只 要 作弊 网 页 需要 通过 链接 关系 进行 操纵 ， 那 么 通用 方法 束 能 
在 一 定 程 度 上 起 到 作用 。 但 是 正 是 因为 通用 方法 的 通用 性 ， 所 以 其 反 
作 贬 思路 没有 针对 性 ， 对 于 一 些 特殊 的 作 兹 手段 无 法 有 效 发 现 。 此 
时 ， 针 对 特殊 作 星 手段 的 方法 形成 了 第 3 道 屏障 ， 即 搜索 引 敬 公司 针对 
具体 作弊 方法 采取 专用 技术 手段 来 进行 识别 ， 因 为 有 针对 性 所 以 效果 
较 好 ， 但 是 缺点 在 于 一 类 反 作 葬 方法 只 能 识别 专门 的 作弊 手段 ， 对 于 
A 而 且 在 时 间 上 往往 滞后 于 作弊 现 

综 上 所 述 ， 这 几 种 反 作 况 方法 生 有 互补 关系 存在 的 ， 有 效 融 合 三 
者 才能 够 获得 较 好 的 反 作 况 效 末 。 


本 章 提要 
(ERS PEN, RPG EAT Ala, Bieta 


定 会 持续 。 
常见 的 作弊 方法 包括 : 内 容 作弊 、 链 接 作 浆 、 隐 藏 作 浆 和 Web 
2.07 EE o 
- FA EMRE EKER ALL FIRN.: 信任 传播 模型 、 不 信 
任 传播 模型 和 异常 发 现 模型 。 
纯粹 用 技术 手段 目前 无 法 彻底 解决 作弊 问题 ， 必 须 将 人 工 手 段 
和 技术 手段 相互 结合 ， 才 能 取得 较 好 的 反 作 交 效果 。 
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第 9 章 ”用 户 查询 意图 分 析 


< 得 天 下 有 道 : 得 其 民 ， 斯 得 天 下 全 ， 得 其 民有 道 ， 得 其 心 ， 斯 得 民 
R: BLAM: PKS, HB, Khe” 
DEF GERE) 


搜索 引擎 与 用 户 交 互 的 腹面 非常 简 污 ， 用 户 输入 查询 词 ， 搜 索引 
DRA Rae, WEA, Ae REA AP RAN ETE 
WB TREN A, mk eee ee EE Te BARA IZ 
掘 才 能 获得 。 

用 户 查 询 意 图 分 析 目 前 是 搜索 引擎 研究 的 焦点 领域 ， 只 有 准确 了 
解 搜索 用 户 到 底 想 要 什么 ， 提 供 满 意 服 务 才 会 成 为 可 能 。 本 章 主要 介 
绍 与 用 户 查 询 意 图 分 析 相 关 的 技术 领域 。 首 先 介绍 用 户 的 搜索 行为 及 
用 户 查 询 意 图 的 分 类 ， 接 下 来 介绍 对 搜索 日 志 的 不 同 处 理 方法 ， 搜 索 

志 是 目前 搜索 引 苟 广泛 采用 的 深入 控 据 用 户 意图 的 有 效 数据 源 ， 很 
多 技术 手段 都 是 以 此 作为 基础 的 。 在 本 章 后 续 两 入 将 介绍 相关 搜索 及 
查询 纠 错 这 两 个 非 第 第 见 的 搜索 引擎 功能 。 


91 搜索 行为 及 其 意图 


搜索 行为 目前 已 经 成 为 了 每 个 上 网 的 人 的 基本 需求 ， 但 是 用 户 的 
搜索 行为 是 怎样 一 个 过 程 ? 隐藏 在 用 户 查 询 背后 的 搜索 意图 是 什么 ? 
这 都 是 需要 仔细 研究 的 领域 ， 只 有 这 样 才能 提供 更 好 的 用 户 体验 。 


9.1.1 用 户 搜索 行为 


用 户 之 所 以 会 产生 搜索 行为 ， 往 往 是 在 解决 任务 时 过 到 自己 不 熟 
悉 的 概念 或 者 问题 ， 由 此 产生 了 对 特定 信息 的 需求 ， 之 后 用 户 会 在 头 
脑 中 逐步 形成 描述 需求 的 查询 词 ， 将 查询 提交 给 搜索 引擎 ， 然 后 对 搜 
索 结 果 进 行 浏 览 ， 如 果 发 现 搜索 结果 不 能 完全 解决 用 户 的 信息 需求 ， 
则 会 根据 搜索 结果 的 启发 ， 改 写 查 询 ， 以 便 更 精确 地 描述 自己 的 信息 
需求 ， 之 后 重新 构造 新 的 查询 请 求 ， 提 交 给 搜索 引擎 ， 如 此 形成 用 户 
和 搜索 引擎 交互 的 闭合 回路 ， 直 到 搜索 结果 已 经 解决 了 目 己 的 需求 或 
者 尝试 几 次 无 果 而 终 。 图 9-1 是 描述 这 种 用 户 搜 索 行为 的 示意 图 。 


图 9-1 用 户 搜索 行为 


从 上 述 过 程 可 以 看 出 ， 从 用 户 产生 信息 需求 到 最 终 形成 用 户 查 
询 ， 中 间 有 很 大 的 不 确定 性 ， 用 户 未 必 能 够 一 开始 就 找到 合适 的 查询 
词 ， 即 使 是 找到 了 ， 也 可 能 存在 查 WIAD REE E fiat fE a RA 
形 ， 即 在 形成 查询 的 过 程 中 存在 信息 丢失 的 问题 。 所 以 后 续 循环 中 的 
查询 改写 就 是 用 户 逐 步 澄清 搜索 需求 的 一 个 过 程 。 


尝 见 的 查询 改写 有 3 种 方式 ， 抽象 化 改写 、 具 体 化 改写 及 同 义 重 构 
改写 。 THEME DUS RD 来 的 查询 进行 语义 抽象 ， 比 如 原先 的 查询 是 “ 东 
北 虎 照片 "， 经 过 抽象 化 改写 成 为 “老虎 照片 "， 因 为 “老虎 ”在 语义 概念 
层次 上 要 更 加 宽泛 ， 包 含 了 “东北 虎 * 这 个 概念 ， 所 以 是 一 种 抽象 化 的 
过 程 ， 之 所 以 要 做 这 种 类 型 的 改写 ， 往 往 是 因为 原先 查询 找到 的 东西 
太 少 ， 通 过 概念 泛 化 增加 搜索 的 召回 率 ， 以 此 方式 找到 更 多 的 内 容 。 

具体 化 改写 正好 与 此 相反 从 宽泛 的 语义 概念 下 行 收 罕 ， 比 如 将 
查询 “室外 活动 场所 ?改写 为 “踏青 场所 ”， 改 写 后 的 查询 更 加 具体 ， 这 人 么 
做 可 以 更 加 精确 地 定位 查找 内 容 。 

同 义 重 构 改写 则 保持 改写 前 后 的 查询 含义 不 变 ， 比 如 将 查询 “ 旧 汽 
车 ?改写 为 "二手 汽车 ”， 两 者 代表 的 含义 是 相同 的 ， 用 户 如 此 改写 往往 
征 对 原先 查询 的 搜索 结果 不 满意 ， 所 以 换 了 一 种 同 义 说 法 来 搜索 。 


91.2 ”用户 搜索 意图 分 类 


用 户 发 出 的 每 个 搜索 请 求 背 后 都 隐 含 着 潜在 的 搜索 意图 ， 如 果 搜 
索引 擎 能 够 根据 查询 词汇 自动 找 出 背后 的 用 户 搜索 意图 ， 然 后 针对 不 
同 的 搜索 意图 ， 提 供 不 同 的 检索 方法 ， 将 更 符合 用 户 意图 的 搜索 结果 
排 在 前 列 ， 无 疑 会 增加 搜索 引 苟 用户 的 搜索 体验 。 目 前 搜索 引擎 已 经 
部 分 实现 了 这 种 搜索 模式 ， 比 如 用 户 搜 索 “ 北 京 ” 天气” 的 时 候 会 主动 
= Sen o 图 9-2 是 这 种 方法 的 一 个 结 
IRAR ° 


图 9-2 ”搜索 意图 分 类 


应 该 将 用 户 意图 分 为 哪些 类 型 ， 日 前 并 没有 明确 标准 可 言 ， 不 过 
很 多 工作 都 受到 了 Broader 等 人 的 意图 分 类 工作 的 影响 ， 他 们 通过 人 工 
分 析 查 询 ， 将 搜索 意图 分 为 3 个 大 的 类 别 。 

1， 导 航 型 搜索 (Navigational) : 这 种 搜索 请 求 的 目的 是 查找 具 
体 的 某 个 网 站 地 址 ， 比 如 著名 公司 的 网 址 或 者 机 构 的 主页 等 ， 其 特点 
是 想 要 去 某 个 网 页 。 

2. 信息 型 搜索 (Informational) : 这 种 搜索 请 求 的 目的 是 为 了 获 
取 某 种 信息 ， 比 如 “如 何 做 宫 保 鸡 J”、“ 美 国 现任 总 统 是 谁 ”* 等 ， 其 特点 
是 用 户 想 要 学 到 一 些 新 知识 。 

3. 事务 型 搜索 (Transactional) : 这 种 搜索 请 求 的 目的 是 为 了 完 
成 一 个 目标 明确 的 任务 ， 比 如 下 载 MP3、 下 载 软件 或 者 在 淘宝 购物 
等 ， 其 特点 是 想 要 在 网 上 做 一 些 事情 。 

Broader 的 搜索 意图 三 分 法 非常 有 影响 力 ， 但 是 失 之 于 粗粮 。 和 雅虎 
的 研究 人 员 在 此 基础 上 做 了 细 化 ， 将 用 户 搜索 意图 划分 为 如 下 类 别 。 

1. 导航 类 : 用 户 知道 要 去 哪里 ， 但 是 为 了 免 于 输入 UREL 或 者 不 知 
道具 体 的 URL， 上 所 以 用 搜索 引擎 来 查找 。 

2. 信息 类 : 又 可 以 细 分 为 如 下 几 种 子 类 型 。 

直接 型 : 用 户 想 知道 关于 一 个 话题 某 个 方面 明确 的 信息 ， 比 
如 “2010 年 诺 由 尔 物 理 奖 获得 者 是 谁 ” 或 者 “为 何 星星 会 发 光 ” 等 。 

间接 型 : 用 户 想 了 解 关 于 某 个 话题 的 任意 方面 的 信息 ， 比 如 粉 
丝 搜索 “李宇春 ”等 。 

建议 型 : 用 户 和 希望 能 够 搜索 到 一 些 建议 、 意 见 或 者 某 方 面 的 指 
导 ， 比 如 “如 何 才能 戒烟 ”等 。 

定位 型 : 用 户 希 望 了 解 在 现实 生活 中 哪里 可 以 找到 某 些 产品 或 
服务 ， 比 如 “ 买 电 话 卡 ”等 。 

”列表 型 :用户 希望 找到 一 批 能 够 满足 需求 的 信息 ， 比 如 “北京 中 
天 村 附近 的 饭店 ”等 。 

3. 资源 类 : 这 种 类 型 的 搜索 目的 是 希望 能 够 从 网 络 上 获取 某 种 资 
源 ， 又 可 以 细 分 为 如 下 几 种 子 类 型 。 

: FRE: 希望 从 网 络 某 个 地 方 下载 想 要 的 产品 或 者 服务 ， 比 
如 “下 载 Win7” 等 。 

娱乐 型 : 用 户 出 于 消遣 的 目的 希望 获得 一 些 有 关 信 息 ， 比 如 “下 


载 电 影 ” 等 


交互 型 : 用 户 和 希望 使 用 某 个 互联 网 软件 或 者 服务 提供 的 结果 ， 
比如 “北京 ”天 气 ”， 用 户 希 望 找到 一 个 网 站 ， 在 这 个 网 站 上 可 以 查询 
北京 的 天 气 情况 。 

获取 型 : 用 户 和 希望 获取 一 种 资源 ， 这 种 资源 的 使 用 场合 不 限于 
电脑 ， 比 如 “折扣 券 ”， 用 户 和 希望 搜 到 某 个 产品 的 折扣 券 ， 打 印 之 后 在 
现实 生活 中 使 用 。 


上 述 是 对 用 户 意 图 的 人 工整 理 分 类 ， 至 于 具体 技术 实现 ， 则 可 以 
采取 一 些 通用 的 分 类 算法 比如 SVM、 决 策 树 等 完成 。 


9.2 ”搜索 日 志 控 所 


搜索 日 志 (Query Log) 征 搜索 引擎 对 用 户 行为 的 记录 ， 通 过 记载 
用 户 行为 ， 可 以 构建 更 好 的 算法 以 使 得 搜索 结果 更 准确 及 更 具有 个 性 
化 色彩 ， 搜 索 日 志 一 般 会 记载 用 户 发 出 的 查询 ， 发 出 查询 的 时 间 ， 点 
击 过 哪些 搜索 结果 等 数据 。 图 9-3 是 一 个 典型 的 搜索 H 2 


用 户 ID 时 间 搜索 排名 


98532 2011-03-05 00:01:58 productpcpop.com/dc/00264 1.html 


93775 2011-03-05 00:01:58 2011.sjzyxh.com 
85007 2011-03-05 00:01:58 www.kugou.com/plist/playbil/2.htm 


16197 2011-03-05 00:01:58 www.tianyacn 
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85530 2011-03-05 00:01:58 zhidao.baidu.com/question/43224630 


图 9-3 一 个 典型 的 搜索 日 志 片 段 


从 图 中 可 以 看 出 ， 搜 索 日 志 每 一 条 记 杂 记载 了 查询 、 发 出 查询 的 
用 户 ID、 发 出 查询 的 时 间 、 点 击 网 页 的 网 址 及 这 条 网 址 在 搜索 结果 中 
的 排名 情况 。 其 中 用 户 ID 往往 是 根据 用 户 使 用 浏览 器 访问 时 的 Cookie 
信息 获得 的 。 

搜索 日 志 包 含 了 很 多 可 用 的 信息 ， 从 中 可 以 挖掘 有 价值 的 数据 来 
帮助 搜索 引擎 改善 搜索 质量 ， 在 使 用 搜索 日 志 前 ， 一 般 会 对 搜索 日 志 
进行 整理 ， 将 原始 形式 的 查询 日 志 转 换 为 意义 更 清晰 的 中 间 数 据 ， 常 
用 的 中 间 数 据 包 括 : 查询 会 话 、 操 击 图 及 查询 图 。 搜 索引 擎 在 这 些 中 
间 数 据 基 础 上 ， 可 以 充分 利用 用 户 查 询 信 息 来 改善 应 用 。 


9.2.1 查询 会 话 (Query Session ) 


通过 挖 据 搜索 日 志 ， 可 以 将 同一 用 户 在 较 短 时 间 段 内 发 出 的 连续 

个 查询 找 出 ， 这 样 一 段 日 志 被 称 做 一 个 查询 会 话 。 比 如 某 个 用 户 想 
St LB FE JLo} BH AL se Se RR AR h: “数码 相机 报 
价 ”`\“ 尼 康 相机 图 片 ”"\“ 尼 康 相机 评价 ”等 一 系列 查询 ， 这 形成 了 一 
查询 会 话 。 

通过 这 种 方式 ， 可 以 把 原始 搜索 日 志 转 换 为 很 多 查询 会 话 ， 和 查询 
会 话 内 的 搜索 请 求 因 为 是 同一 用 户 在 较 短 时 间 段 内 发 出 的 ， 所 以 这 些 
查询 往往 有 一 定 的 语义 相关 性 。 这 种 语义 相关 性 可 以 被 用 来 开发 相关 
搜索 推荐 等 具体 的 搜索 应 用 。 


9.2.2 ”点 击 图 (Click Graph) 


除了 查询 会 话 外 ， 男 外 一 种 常用 的 中 间 数 据 是 点 击 图 。 从 搜索 日 
志 记 录 可 以 看 到 ， 用 户 发 出 某 个 查询 后 ， 搜 索引 擎 返回 搜索 结果 ， 而 
用 户 会 有 选择 地 点 击 其 中 某 些 链 接 。 这 种 用 户 点 击 行为 是 很 有 意义 
的 ， 一 般 可 以 假设 : 用 户 之 所 以 会 点 击 这 个 网 址 ， 是 因为 用 户 在 看 了 
网 页 标题 和 搜索 引擎 摘要 后 ， 认 为 这 个 网 页 是 和 查询 比较 相关 的 ， 所 
以 才 会 点 击 。 也 丈 是 说 ， 可 以 认为 搜索 结果 里 被 点 击 过 的 网 页 与 用 户 
查询 更 相关 。 虽 然 这 种 假设 并 不 总 是 成 立 ， 但 是 这 类 数据 在 实践 中 是 
非常 有 用 的 。 

将 查询 和 这 个 查询 对 应 的 点击 网 址 联系 起 来 ， 可 以 构建 点 击 图 ， 
这 是 一 种 二 分 图 ， 一 端的 图 节点 是 所 有 用 户 发 出 的 查询 条 件 ， 男 一 端 
的 图 节点 是 互联 网 网 页 的 网 址 ， 如 采 发 出 查询 的 用 户 点 击 过 某 个 网 
址 ， 则 在 查询 节点 和 网 址 世上 点 之 间 建 立 有 向 边 ， 同 时 这 个 有 向 边 可 以 
设 定 权 重 ， 一 般 用 点 击 次 数 来 作为 边 的 权重 。 

图 9-4 是 用 户 点 击 图 的 一 个 示例 ， 二 分 图 左 侧 是 用 户 碍 询 ， 石 侧 是 
网 页 网 址 ， 比 如 对 于 用 户 查 询 “ 打 折 机 票 ” 来 说 ， 一 般 会 点 击 “ 携 程 旅行 
网 ” (www.ctrip.com) 和 “去 哪儿 ” (flight.qunar.com) 的 网 页 ， 所 以 在 
两 类 节点 之 则 有 边 联 系 ， 同 时 点 击 次 数 可 以 作为 边 的 权 值 。 


用 户 查 询 网 址 
图 9-4 用 户 点 击 图 的 一 个 示例 


点 击 图 是 非常 有 价值 的 信息 ， 比 如 从 图 9-4 可 以 看 出 ， 查 询 “ 旅 


行 " 和 “打折 机 票 ” 共 同 的 点 击 网 址 是 携程 网 ， 这 从 某 种 角度 说 明 这 两 个 
查询 是 语义 相关 的 ， 所 以 从 后 击 图 中 可 以 挖 扬 大 量 语义 相关 信息 。 


9.2.3 ”查询 图 (Query Graph) 
用 户 发 出 的 查询 之 间 是 有 语义 关联 的 ， 查 询 图 就 是 试图 构建 查询 


之 间 相互 关系 的 一 种 数据 表示 。 图 9.5 给 出 了 一 个 示例 ， 图 中 的 和 点 是 
用 户 发 出 的 查询 ， 而 边 上 的 权重 则 体现 了 查询 之 间 的 语义 相关 程度 。 


图 9-5 ”查询 图 示例 


有 和 若干 种 办 法 可 以 构建 这 种 查询 图 ，Baeza-Yates 提 出 了 5 种 构建 查 
询 图 的 方法 。 

1. 可 以 用 两 个 查询 中 重合 的 单词 数 日 来 衡量 ， 重 合 程度 越 高 ， 两 
个 查询 的 相似 性 越 大 。 

2. 如 果 两 个 查询 属于 同一 个 查询 会 话 ， 则 可 以 在 两 者 之 间 建 立 联 

3. 在 点 击 图 中 如 果 两 个 查询 有 共同 的 点 击 网 址 ， 则 可 认为 两 者 有 
TE LEK © 

4. 在 点 击 图 中 ， 如 果 两 个 网 址 有 链接 关系 ， 则 其 对 应 的 查询 可 以 
建立 语义 关系 。 假 设 在 图 9- -4 中 雅 记 主页 Wwwyahoo， cn 有 指向 谷歌 地 图 
的 链接 ， 则 查询 “雅虎 * 和 “旅行 "可 以 在 查询 图 中 建立 边 。 


5. 在 点 击 图 中 ， 如 果 两 个 网 址 的 页 面 内 容 主 题 相 近 ， 那 么 其 对 应 
的 查询 可 以 建立 语义 关系 。 比 如 在 图 9-4 中 ， 因 为 “携程 旅行 网 ?和 “去 哪 
儿 ” 网 站 在 页 面 内 容 上 比较 类 似 ， 所 以 与 它们 有 关联 的 查询 词语 义 相 
关 ， 即 可 以 在 “旅行 "和 “打折 机 票 * 这 两 个 查询 之 间 建 立 语义 联系 。 


利用 得 询 图 ， 可 以 发 现 查 询 之 间 的 相似 性 ， 在 此 基础 上 ， 可 以 构 
建 具 体 应 用 来 使 用 这 种 信息 。 


9.3 ”相关 搜索 


HRR FR TE OP EES, eA RAT Bae, 
搜索 引擎 向 用 户 推荐 与 用 户 输入 查询 语义 相关 的 其 他 查询 。 用 户 对 于 
自己 的 信息 需求 ， 不 一 定 能 够 准确 地 想到 合适 的 搜索 词 来 表达 搜索 意 
图 ， 相 天 搜索 可 以 给 用 户 提 示 ， 如 琳 用 户 沉 得 搜索 引擎 推荐 的 查询 更 
适合 自己 的 搜索 意图 那么 会 改善 用 户 体验 。 

相关 搜索 目前 已 经 是 搜索 引擎 提供 的 标准 配置 功能 ， 图 9-6 是 输 
入 “姚明 ”作为 查询 请 求 时 ， Google 的 相关 搜索 提供 的 结果 。 


姚明 的 相关 搜索 
dnt 84 姚明 交易 
姚明 叶莉 离婚 EA eS He 


姚明 视频 姚明 跳出 合同 
姚明 旗手 劳 伦 杰 克 还 姚明 
姓 明 捐款 Bk BA TE Hr 


图 9-6 Google 对 查询 “姚明 ”的 相关 搜索 


给 定 用 户 碍 询 ， 搜 索引 擎 如 何 计 算 相 关 碍 询 呢 ? 目前 主流 的 做 法 
有 两 类 ， 基 于 查询 会 话 的 方法 和 基于 点 击 图 的 方法 。 


9.3.1 基于 查询 会 话 的 方法 


对 于 原始 搜索 日 志 ， 搜 索引 擎 会 对 其 做 初步 整理 ， 而 查询 会 话 是 
aoe 种 整理 方式 。 每 个 查询 会 话 包 含 了 某 个 固定 用 户 在 较 短 时 间 内 

续 发 出 的 得 询 流 ， 一 般 而 言 ， 在 同一 查询 会 话 内 的 查询 相互 之 间 存 
EELER. 而 基于 查询 会 话 来 进行 相关 搜索 推荐 的 方法 整 是 利用 了 
这 一 ， 

图 9-7 是 这 种 方法 的 简明 示意 图 。 搜 索引 擎 将 原始 搜索 日 志 转 换 为 
大 量 的 碍 询 会 话 ， 之 后 采用 关联 规则 挖掘 等 各 种 数据 挖掘 算法 来 对 得 
询 会 话 进行 统计 处 理 ， 挖 据 结 果 往 往 是 一 批 查询 对 <QxQy>， 这 代表 


Qx 和 Qy 在 查询 会 话 里 是 经 党 一 起 出 现 的 ， 所 以 当 用 户 输入 其 中 某 一 个 
查询 的 时 候 ， 可 以 推荐 给 用 户 忆 外 一 个 查询 作为 相关 搜索 结果 。 


查询 会 话 gE 


eee eee 


wee tee 


图 9-7 ”基于 查询 会 话 挖掘 相关 查询 


这 种 方法 思路 简单 ， 但 是 存在 两 个 缺点 : 一 个 是 查询 会 话 的 准确 
切割 有 一 定 难度 ; 另外 ， 因 为 查询 会 话 是 以 同一 用 户 的 输入 为 基准 
的 ， 所 以 在 控 据 结果 里 不 能 体现 不 同 用 户 的 查询 之 间 的 关联 。 


93.2 ”基于 点击 图 的 方法 


前 文 讲 过 ， 点 击 图 是 对 原始 搜索 日 志 整 理 后 的 另外 一 种 中 间 结 
果 ， 很 多 算法 使 用 点 击 图 来 进行 查询 推荐 。 尽 管 方法 很 多 ， 但 是 其 基 
本 指导 思想 是 相同 的 : 如 果 两 个 查询 各 自 对 应 的 点 击 网 址 中 ， 有 很 大 
比例 是 相同 的 ， 那 么 说 明 这 两 个 查询 在 语义 上 紧密 相关 ， 可 以 作为 相 
互 推 荐 的 相关 查询 。 

图 9-8 是 一 个 较为 通用 的 利用 点 击 图 来 探寻 语义 相关 查询 的 方法 示 
意图 。 总 的 来 说 ， 这 种 方法 由 两 个 步骤 构成 。 首 先 ， 根 据点 击 图 可 以 
将 查询 表示 为 其 对 应 点 击 网 址 的 权重 向 量 ， 比 如 图 中 的 q2 这 个 查询 ， 
因为 用 户 发 出 这 个 查询 后 点 击 过 D2 和 D3 两 个 网 址 ， 且 其 点 击 次 数 分 别 
是 10 和 8， 所 以 可 以 构造 向 量 [0,10,8,0]， 向 量 的 每 一 维度 代表 一 个 网 
址 ， 以 点 击 次 数 作 为 对 应 的 权重 。 在 做 出 以 上 处 理 后 ， 就 可 以 进行 第 2 
步 ， 计 算 任意 两 个 查询 之 间 的 相似 度 ， 在 此 基础 上 采用 不 同 的 聚 类 算 


法 可 以 将 查询 聚合 成 大 小 不 同 的 类 别 ， 被 聚合 到 同一 类 别 内 的 查询 可 
以 相互 作为 相关 搜索 的 结果 推荐 给 用 户 ， 比 如 在 图 9-8 的 例子 中 ， 用 户 
输入 查询 q2， 可 以 将 qg3 和 q4 作 为 相关 搜索 的 结果 推荐 给 用 户 。 

mi mT 
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[0 ' 10 ' 8 
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图 9-8 ”基于 点 击 图 的 相关 查询 推荐 


上 述 是 一 个 通用 的 基本 算法 框架 ， 不 同 的 研究 者 提出 了 各 种 扩展 
算法 ， 比 如 在 设 定 查 询 的 权重 向 量 时 ， 不 仅 考虑 点 击 关 系 ， 还 可 以 将 
点 击 网 址 的 网 页 内 容 相似 性 考虑 进来 等 ， 同 时 ， 在 聚 类 算法 方面 也 可 
以 采用 不 同 的 方法 来 实现 具体 系统 。 

ET ROGAN AET is AS, (eRe H AIJE: 
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量 的 数据 是 有 挑战 性 的 。 


9.4 ”查询 纠 错 


用 户 通 过 键盘 裔 入 查询 的 时 候 ， 一 种 很 常见 的 错误 是 输 错字 符 ， 
比如 把 “* 周 鸿 神 ? 错 输 成 <* 周 鸿 一 ”。 统 计 发 现 ， 搜 索引 擎 查询 中 ， 大 约 有 
102% 一 152%% 的 碍 询 是 错误 输入 的 ， 所 以 如 何 能 够 目 动 纠正 用 户 的 错误 
查询 ， 这 对 于 搜索 结果 质量 提升 有 很 大 帮助 。 


英文 的 输入 错误 主要 有 两 大 类 型 : 一 种 是 键盘 敲 击 错误 ， 比 如 把 i 
错 敲 击 为 u， 或 者 是 多 殴 击 了 一 个 字符 等 ， 另 外 一 种 是 音节 错误 ， 两 个 
单词 发 首相 同 但 是 输入 是 错误 的 ， 比 如 将 two 错 输 为 too 等 。 对 于 中 文 来 
说 ， 往 往 需 要 经 过 中 文 输入 法 作为 中 介 ， 所 以 更 容易 因 选 择 了 输入 法 
的 错误 选项 ， 导 致 错 输入 同音 词 ， 即 更 容易 出 现 音节 类 型 错误 。 

从 大 的 流程 上 讲 ， 碍 询 纠 错 分 为 两 个 步骤 。 首 先 在 众多 的 查询 
中 ， 有 正确 的 有 错误 的 ， 如 何 识别 哪些 查询 是 错误 的 ? 这 个 需要 错误 
识别 机 制 来 达到 此 目的 。 再 者 如 采 发 现 某 个 查询 输 错 了 ， 如 何 找到 正 
确 的 输入 ? 这 个 需要 错误 纠正 模块 来 实现 此 功能 。 图 9-9 展 示 了 一 个 查 
询 纠 错 的 整体 流程 和 构成 模块 。 


图 9-9 一 个 查询 纠 错 的 整体 流程 和 构成 模块 


大 多 数 错误 识别 机 制 是 基于 词典 的 ， 即 将 用 户 输入 的 查询 分 词 后 
得 找 词 典 ， 如 采 在 词典 里 没有 找到 ， 那 么 这 很 可 能 息 一 个 错误 输入 。 

至 于 错误 纠正 则 有 各 种 不 同 的 算法 ， 和 常见 的 方法 有 两 种 : 编辑 距 
离 和 噪声 信道 模型 。 


9.4.1 编辑 距离 (Edit Distance) 


利用 编辑 距离 来 纠正 拼写 错误 历史 悠久 ， 大 约 在 20 世 纪 60 年 代 就 
开始 采用 这 种 方法 。 这 有 是 一 种 用 来 衡量 两 个 字符 串 的 拼写 差异 有 多 大 
的 算法 ， 对 于 某 个 字符 串 S 来 说 ， 可 以 通过 对 其 进行 几 种 操作 ， 来 逐步 
将 其 转换 为 字符 串 T， 这 些 操作 包括 删除 字符 、 添 加 字符 、 更 改 字 符 及 
交换 字符 顺序 4 种 操作 。 转 换 过 程 中 所 需 操 作 步 又 越 多 ， 则 其 编辑 距离 


越 大 ， 也 意味 着 这 两 个 字符 串 差 异 越 大 。 图 9-10 给 出 了 将 错误 单词 
Mcirossat 转 换 为 Microsoft 的 过 程 ， 从 这 个 例子 可 以 看 出 ， 两 个 单词 的 
编辑 距离 为 4， 也 就 是 说 从 原始 字符 串 转换 为 目标 字符 串 使 用 了 4 步 操 
作 。 如 果 需 要 计算 的 数据 量 比较 大 ， 编 辑 距 离 的 效率 会 成 问题 。 


Mecirossat \ 


‘Microssat> 
Microssaft” 


‘Microsaft » 


Microsoft ^ 


Mcirossat Sit 
图 9-10 编辑 距离 示例 


9.4.2 ”噪声 信道 模型 (Noise Channel Model) 


噪声 信道 模型 可 以 理解 为 正确 的 查询 通过 一 个 噪声 信道 传输 ， 在 
传输 过 程 中 受到 外 界 干 扰 ， 导 致 在 信息 接收 端 收 到 的 查询 发 生 错误 ， 
图 9-11 是 噪声 信道 模型 的 原理 示意 。 


图 9-11 ”噪声 信道 模型 的 原理 示意 


给 定 错误 查询 V 及 其 对 应 的 可 能 正确 查询 W， 噪 声 信道 模型 将 查询 
纠 错 任 务 转换 成 了 估计 概率 P (W/V) ， 其 含义 是 : 接收 到 错误 的 查 
询 V， 这 个 查询 对 应 的 正确 查询 是 w 的 概率 有 多 大 ， 对 于 多 个 候选 正确 
答案 ， 选 择 概率 值 最 大 的 作为 V 对 应 的 正确 查询 。 将 P (WV) 根据 由 
叶 斯 公式 转 写 为 : 


P (W|V) =P (V|W) xP (w) AP (v) 

因为 对 于 多 个 候选 答案 W1，W2，...，Wn 来 说 ， 这 个 公式 的 分 母 

P (V) 都 是 相同 的 ， 所 以 可 以 忽略 不 计 ， 于 是 问题 转换 成 求 : 
Argmax (P (V | W) xP (w) ) 

就 是 说 哪个 候选 答案 Wi 使 得 上 面 公式 得 分 最 大 ， 那 么 这 个 Wi 就 是 
错误 查询 V 对 应 的 正确 查询 。 

上 述 公 式 又 可 以 分 为 两 个 因子 : P (V|W) 与 P (w) °P 
(Vw) 被 称 为 错误 模型 ， 即 正确 查询 W 被 错 写成 V 的 概率 ， 具 体 计 
算 方法 有 很 多 种 ， 比 如 可 以 用 上 市 提 到 的 编辑 距离 计算 ， 也 可 以 收集 
一 些 被 错误 拼写 的 查询 例子 ， 用 这 些 例子 的 统计 数据 来 计算 错误 模 
型 。P (W) 被 称 为 语言 模型 ， 可 以 通过 计算 查询 W 在 所 有 查询 中 出 现 
的 概率 值 来 估计 。 如 果 可 以 估计 以 上 两 个 因子 ， 就 可 以 计算 哪个 Wi 是 
错误 查询 V 的 正确 输入 。 


本 章 提要 
准确 分 析 用 户 的 搜索 意图 是 目前 搜索 引擎 研发 的 潮流 与 重点 方 


用 户 的 搜索 意图 可 以 粗 分 为 导航 型 、 信 息 型 和 事务 型 。 
搜索 日 志 是 深入 挖掘 用 户 洪 在 搜索 意图 最 常用 的 数据 来 源 ， 而 
扩 击 图 、 碍 询 会 话 和 查询 图 是 由 搜索 日 志 整 理 出 的 基础 数据 。 


相关 搜索 和 查询 纠 错 是 非常 常见 的 帮助 用 户 深 清 搜 索 意 图 的 具 
体 应 用 。 
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第 10 章 ”网 页 去 重 


o HRKI? 高 者 抑 之 ， 下 者 举 之 ; 有 馆 者 损 之 ， 不 足 者 补 
。 天 之 道 ， 损 有 多 而 补 不 足 。 人 之 道 ， 则 不 然 ， 损 不 足以 奉 有 馈 。 
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统计 结果 表明 ， 近 似 重 复 网 页 (Near Duplicate Web Page) 的 数量 

占 网 页 总 数 的 比例 高 达 全 部 页 面 的 29%， 而 完全 相同 的 页 面 大 约 占 全 

部 页 面 的 22%， 即 互联 网 页 面 中 有 相当 大 比例 的 内 容 是 完全 相同 或 者 

大 体 相近 的 。 图 10-1 给 出 了 一 个 示例 ， 例 子 中 的 新 闻 主 体内 容 是 几乎 完 

但 是 两 个 页 面 的 网 页 布局 有 较 大 差异 ， 此 种 情况 在 互联 网 
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图 10-1 近似 重复 网 页 示例 
“近似 重复 网 页 有 多 种 类 型 ， 这 些 重复 网 页 有 的 是 没有 一 点 儿 改 动 
的 副本 ， 有 的 在 内 容 上 稍 做 修改 ， 比 如 同一 文章 的 不 同 版 本 ， 一 个 新 
一 点 ， 一 个 老 一 点 ， 有 的 则 仅仅 是 网 页 的 格式 不 同 〈 如 HIML ` 
Postscript) 。 内 容重 复 可 以 归结 为 以 下 4 种 类 型 。 
类 型 一 : 如 果 两 篇 文档 内 容 和 布局 格式 上 训 无 差别 ， 则 这 种 重 
复 可 以 叫做 完全 重复 页 面 。 
类 型 二 : 如 果 两 篇 文档 内 容 相 同 ， 但 是 布局 格式 不 同 ， 则 叫做 
内 容重 复 页 面 。 
”类 型 三 ， 如 果 两 篇 文档 有 部 分 重要 的 内 容 相 同 ， 并 且 布 局 格式 
相同 ， 则 称 为 布局 重复 页 面 。 
类 型 四 : 如 果 两 篇 文档 有 部 分 重要 的 内 容 相 同 ， 但 是 布局 格式 
不 同 ， 则 称 为 部 分 重复 页 面 。 


所 谓 近 似 重 复 网 页 发 现 ， 融 旦 通过 技术 手段 快速 全 面 发 现 这 些 重 
复 信息 的 手段 ， 如 何 快速 准确 地 发 现 这 些 内 容 上 相似 的 网 页 已 经 成 为 
提高 搜索 引擎 服务 质量 的 关键 技术 之 一 。 

发 现 完全 相同 或 者 近似 重复 网 页 对 于 搜索 引擎 有 很 多 好 处 。 

1 首先， 如果 我 们 能 够 找 出 这 些 重复 网 页 并 从 数据 库 中 去 择 ， 融 
能 够 节省 一 部 分 存储 空间 ， 进 而 可 以 利用 这 部 分 空间 存放 更 多 的 有 效 
网 页 内 容 ， 同 时 也 提高 了 搜索 引 敬 的 搜索 质量 和 用 户 体 验 。 

2. 其 次 ， 如 采 我 们 能 够 通过 对 以 往 收集 信息 的 分 机 ， 预 匈 发 现 重 
复 网 页 ， 在 今后 的 网 页 收集 过 程 中 就 可 以 避 开 这 些 网 页 ， 从 而 提高 取 
页 的 收集 速度 。 有 研究 表明 重复 网 页 随 着 时 间 不 发 生 太 大 变化 ， 所 以 
这 种 从 重复 页 面 集合 中 选择 部 分 页 面 进行 索引 是 有 效 的 。 

3. 男 外 ， 如 有 果 某 个 网 页 的 镜像 度 较 高 ， 往 往 是 其 内 容 比 较 受 欢迎 
的 一 种 间接 体现 ， 也 就 预示 着 该 网 页 相对 重要 ， 在 收集 网 页 时 应 赋予 
它 较 局 的 优先 级 ， 而 当 搜 索引 擎 系统 在 啊 应 用 户 的 检索 请 求 并 对 输出 
结 采 排序 时 ， 应 该 赋予 它 较 高 的 权 值 。 

4. 从 另外 一 个 角度 看 ， 如 果 用 户 点 击 了 一 个 死 链 接 ， 那 么 可 以 将 
用 户 引 导 到 一 个 内 容 相 同 页 面 ， 这 样 可 以 有 效 地 增加 用 户 的 检索 体 
验 。 因 而 近似 重复 网 页 的 及 时 发 现 有 利于 改善 搜索 引 敬 系统 的 服务 质 
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抓 取 到 网 页 时 ， 需 要 和 已 经 建立 到 索引 内 的 网 页 进行 重复 判断 ， 如 采 
判断 是 近似 重复 网 页 ， 则 直接 将 其 抛弃 ， 如 末 发 现 是 全 新 的 内 容 ， 则 
将 其 加 入 网 页 索引 中 。 


图 10-2 近似 重复 检测 任务 在 搜索 引擎 中 所 处 流程 说 明 
10.1 通用 去 重 算法 框架 


对 于 网 页 去 重任 务 ， 具 体 可 以 采取 的 技术 手段 五 花 八 门 ， 各 有 创 
新 与 特色 ， 但 是 如 果 仔细 研究 ， 大 部 分 算法 的 整体 流程 和 框架 有 诸多 
相似 之 处 ， 本 节 参 考 一 些 实践 效果 较 好 的 去 重 算法 ， 并 归纳 整理 ， 总 
结 了 相对 通用 的 算法 框架 。 尽 管 很 多 算法 看 似 杀 异 ， 其 框架 实则 雷 
同 ， 这 与 去 重任 务 本 身 的 要 求 有 密切 关系 ， 即 需要 算法 能 够 对 海量 数 
据 进 行 快速 处 理 。 

图 10-3 给 出 了 这 个 通用 算法 框架 的 流程 图 ， 对 于 给 定 的 文档 ， 首 先 
通过 一 定 的 特征 抽取 手段 ， 从 文档 中 抽取 出 一 系列 能 够 表征 文档 主体 
内 容 的 特征 集合 。 这 一 步骤 往往 有 其 内 在 要 求 ， 即 尽 可 能 保留 文档 重 
要 信息 ， 抛 弃 无 关 紧 要 的 信息 。 之 所 以 要 抛弃 掉 部 分 信息 ， 主 要 是 从 
计算 速度 的 角度 考虑 的 ， 一 般 来 说 ， 抛 弃 的 信息 越 多 ， 计 算 速度 会 越 
快 ， 但 是 如 果 抛 弃 得 过 多 ， 在 此 步骤 可 能 会 对 失重 要 信息 ， 所 以 不 同 
的 算法 在 此 步骤 需要 做 出 权衡 ， 在 速度 和 准确 性 方面 要 通盘 考虑 ， 尽 
可 能 兼顾 两 者 。 


在 将 文档 转换 为 特征 集合 后 ， 很 多 算法 束 可 以 直接 进入 查找 相似 


文档 的 阶段 ， 但 是 对 于 搜索 引擎 来 说 ， 所 要 处 理 的 网 页 数量 以 亿 计 ， 
算法 的 计算 速度 至 关 重 要 ， 否 则 算法 可 能 看 上 去 很 类 ， 但 是 无 实用 效 
果 。 为 了 能 够 进一步 加 快 计算 速度 ， 很 多 高 效 实用 的 算法 会 在 特征 集 
合 的 基础 上 ， 对 信息 进一步 压缩 ， 采 用 信息 指纹 相关 算法 ， 将 特征 集 
合 压 缩 为 新 的 数据 集合 ， 其 包含 的 元 素数 量 远 远 小 于 特征 集合 数量 ， 
有 了 时候 甚至 只 有 唯一 的 一 个 文档 指纹 。 在 此 处 与 在 特征 抽取 阶段 一 
样 ， 有 可 能 会 有 信息 丢失 ， 所 以 也 和 需 权衡 压缩 率 和 准确 性 的 问题 。 

当 把 文档 压缩 为 文档 指纹 后 ， 即 可 开始 通过 相似 性 计算 来 判断 哪 
些 网 页 是 近似 重复 页 面 。 对 于 去 重 来 说 ， 最 利用 的 文本 相似 性 计算 是 
Jaccard 相 似 度 ， 大 部 分 去 重 算法 都 是 以 此 作为 评估 两 个 文档 是 否 近 似 
的 标准 。 男 外 ， 由 于 数据 量 太 大 ， 在 计算 相似 性 的 时 候 ， 如 来 一 一 进 
行 比较 显然 效率 很 低 ， 在 此 处 不 同 算法 往往 会 采用 各 种 策略 来 加 快 相 
似 性 匹配 过 程 ， 比 较 常 见 的 做 法 是 对 文档 集合 进行 分 组 ， 对 于 某 个 文 
档 ， 找 到 比较 相似 的 分 组 ， 和 分 组 内 的 网 页 进行 一 一 比较 ， 这 样 可 以 
大 大 减少 比较 次 数 ， 有 效 提升 系统 效率 。 

上 述 的 通用 去 重 算法 框架 看 上 去 比较 抽象 ， 读 者 在 阅读 完 后 续 介 
绍 的 具体 算法 后 再 次 返回 本 市 对 照 ， 可 以 获得 更 深刻 的 理解 ， 对 此 框 
架 的 深入 理解 有 助 于 开发 者 研发 新 的 高 效 去 重 滤 法 ， 应 该 意识 到 : 之 
所 以 框架 如 此 ， 是 有 其 深刻 原因 的 。 


10.2 Shingling y% 


Shingling 算 法 可 以 被 视 为 由 两 个 大 的 步骤 组 成 : 第 1 步 从 文档 中 抽 
取 能 够 代表 文档 内 容 的 特征 ， 第 2 步 则 根据 两 个 文档 对 应 特征 集合 的 重 
登 程度 来 判断 是 否 近 似 重复 。 

之 所 以 被 称 为 Shingling 算 法 ， 是 因为 该 方法 以 Shingles 作 为 文档 的 
特征 。 所 谓 Shingles， 即 将 文档 中 出 现 的 连续 单词 序列 作为 一 个 整体 ， 
为 了 方便 后 续 处 理 ， 对 这 个 单词 片段 进行 哈 希 计算 ， 形 成 一 个 数值 ， 
每 个 单词 片段 对 应 的 哈 希 值 称 为 一 个 Shingle， 而 文档 的 特征 集合 就 是 
由 多 个 Shingle 构 成 的 。 

图 10-4 是 Shingling 算 法 如 何 将 一 篇 文本 文档 转换 为 特征 集合 的 示意 
图 ， 可 以 假想 有 一 个 固定 大 小 的 移动 窗口 从 文档 第 1 个 单词 (单字 ) 开 

台 依次 移动 ， 每 次 向 后 移动 一 个 单词 (AF) ， 直 到 文本 末尾 。 图 10-4 
中 是 以 3 个 汉字 作为 移动 窗口 的 大 小 ， 所 以 第 1 个 长 度 为 3 的 汉字 捉 


是 “新 浪 发 ”， 对 这 个 汉字 串 进行 哈 希 计算 (Shingling 算 法 在 此 处 采用 
Rabin FingerPrint 算 法 ) ， 即 得 到 一 个 shingle， 然 后 窗口 向 后 移动 一 个 
汉字 ， 形 成 第 2 个 汉字 串 “ 浪 发 布 "， 同 样 对 汉字 串 进行 哈 希 计算 ， 得 到 
第 2 个 shingle， 依 此 类 推 ， 窗 口 不 断后 移 ， 直 到 末尾 的 汉字 串 “ 户 破 
亿 ” 为 止 ， 这样 所 有 的 shingle 组 成 的 集合 就 是 文档 对 应 的 特征 集合 。 
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图 10-4 用 Shingling 算 法 将 一 篇 文本 文档 转换 为 特征 集合 的 示意 图 


如 果 每 个 文档 都 通过 如 上 方式 转换 为 特征 集合 ， 如 何 计算 两 个 文 
档 是 人 否 是 近似 重复 网 页 ?” Shingling 算 法 考察 两 个 特征 集合 的 重重 程 
度 ， 重 车 程度 越 高 ， 则 越 可 能 是 近似 重复 网 页 。 具 体 而 言 ， 采 用 了 
Jaccard 相 似 性 来 计算 这 个 重 私 程度 。 

图 10-5 是 Jaccard 相 似 性 计算 的 示意 图 ， 这 是 一 种 计算 集合 相似 性 的 
经 典 方 法 ， 对 于 两 个 集合 A 和 B 来 说 ， 两 者 的 重 琶 部 分 由 C 来 表示 。 图 
中 集合 A 包 含 4 个 元 素 ， 集 合 B 包 含 5 个 元 素 ， 而 两 者 相同 的 元 素 有 2 
个 ， 即 集合 C 的 大 小 为 2。Jaccard 计 算 两 个 集合 相同 的 元 素 占 总 元 素 个 
数 的 比例 ， 因 为 图 10-5 中 集合 A 和 B 共 有 7 个 不 同 元 素 ， 相 同 元 素 个 数 为 
2， 所 以 集合 A 和 和 集合 B 的 相似 性 即 为 2/7。 


Jaccard(A,B)= wH 
|A+B| 
图 10-5 “文档 相似 性 计算 


Shingling 算 法 通过 以 上 两 个 步 又 即 可 计算 哪些 网 页 是 近似 重复 网 


页 ， 但 是 这 种 方法 在 实际 运行 时 ， 计 算 效率 并 不 高 ， 如 果 网 页 数量 
大 ， 运 行 时 间 会 过 长 ， 并 不 实用 。 原 因 在 于 把 一 个 文档 转换 为 以 
shingles 表 示 的 特征 集合 形式 后 ， 这 个 文档 对 应 的 特征 集合 仍然 太 大 。 
同时 对 于 不 同 长 度 的 文档 来 说 ， 转 换 后 的 特征 集合 大 小 各 异 。 而 这 两 
扩 对 于 高 效 计算 来 说 部 是 不 利 因 素 。 为 了 加 快 计算 速度 ， 能 否 将 文档 
的 特征 案 合 变 为 固定 长 度 ， 同时 使 得 这 个 长 度 远 远 小 于 原始 的 特征 集 
他? 

Fetterly 等 人 提出 了 针对 原始 Shingling 算 法 改进 的 算法 ， 其 基本 思 
想 即 如 上 所 述 ， 对 于 不 同 的 网 页 ， 将 其 转换 为 固定 大 小 的 特征 集合 ， 


而 且 这 个 特征 集合 的 大 小 要 远 小 于 原始 Shingling 转 换 后 特征 集合 的 大 
小 ， 以 此 手段 来 大 大 提升 运算 效率 。 

图 10-6 即 为 这 个 改进 思路 的 示意 图 。 前 面 帮 干 计算 过 程 与 原始 
Shingling 算 法 是 一 致 的 ， 即 首先 将 一 个 文档 转换 为 由 shingles 构 成 的 特 
征集 合 。 为 了 能 够 将 文档 特征 映射 为 固定 大 小 ， 引 入 m 个 不 同 的 哈 布 贸 
数 ， 形 成 哈 希 函数 徐 。 对 于 某 个 特定 的 哈 希 函数 F， 对 每 个 shingle 部 计 
算出 一 个 对 应 的 哈 希 数值 ， 取 其 中 最 小 的 那个 哈 布 数值 作为 代表 。 这 
样 m 个 哈 布 图 效 束 获得 了 m 个 哈 希 数值 ， 如 此 束 把 文档 的 特征 集合 转换 
为 固定 大 小 m， 同 时 这 个 数值 也 比 很 多 由 shingles 构 成 的 特征 集合 小 很 
多 。 通 过 如 上 方式 ， 即 可 把 文档 对 应 的 特征 集合 映射 为 一 个 固定 大 
E00 以 加 快 后 续 相 似 度 计算 
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哈 希 函数 徐 :  Fl(FingerPrint) F2(FingerPrint) 


图 10-6 ”改进 的 Shingling 算 法 思路 示意 图 

图 10-6 中 为 了 方便 说 明 问 题 ， 哈 硕 函 数 复 只 包含 了 两 个 哈 硕 函数 ， 
而 实际 使 用 的 时 候 往往 会 使 用 84 个 不 同 的 哈 希 函数 ， 即 将 一 个 文档 映 
射 成 为 由 84 个 数值 构成 的 数值 向 量 。 为 了 进一步 加 快 计 算 速 度 ， 可 以 
将 84 个 数值 进一步 压缩 : 以 14 个 连续 数值 作为 一 块 ， 将 84 个 数值 分 为 6 
块 ， 利 用 另外 一 个 哈 硕 函数 对 每 一 块 的 14 个 数值 进行 哈 希 计算 ， 进 一 
步 将 文档 特征 转换 为 6 个 哈 锅 数值 ， 如 果 任 意 两 个 文档 有 两 个 以 上 的 哈 
希 数 值 是 相同 的 ， 即 可 认为 是 近似 重复 文档 ， 这 个 技巧 被 称 为 
SuperShingle ° 

至 于 计算 文档 集合 的 Jaccard 相 似 性 ， 一 般 会 采用 Union-Find 算 法 。 
Union-Find 算 法 是 经 典 的 计算 等 价 类 的 高 效 算法 ， 参 考 文献 众多 ， 此 处 


即 不 改 述 其 细 市 ， 重 点 仍然 放 在 去 重 算法 本 身 。 

经 过 如 上 诸 般 优化 措施 ， 改 进 的 Shingling 算 法 计算 效率 已 非常 
高 。 实 验 表 明 ， 计 算 一 亿 五 千 万 个 网 页 ， 该 方法 可 以 在 3 小 时 内 计算 完 
毕 ， 而 原始 的 Shingling 算 法 即使 定 处 理 三 千 万 网 页 ， 也 需 10 天 才 可 完 
成 ， 应 该 说 速度 的 提升 是 非常 显著 的 。 


10.3 I-Match 算 法 


最 初 的 I-Match 算 法 是 由 Abdur 等 人 于 2002 年 提出 的 ， 其 基本 流程 也 
遵循 本 章 第 一 节 所 述 的 通用 去 重 算法 框架 。 

图 10-7 是 I-Match 算 法 流程 的 示意 图 。 对 于 该 算法 来 说 ， 非 常 重要 
的 一 个 步骤 是 事先 计算 出 一 个 全 局 的 特征 词典 ， 具 体 到 I-Match 算 法 来 
说 ， 则 是 根据 大 规模 语 料 进行 统计 ， 对 语 料 中 出 现 的 所 有 单词 ， 按 照 
单词 的 IDF 值 由 高 到 低 进 行 排序 ， 之 后 去 除 掉 一 定 比 例 IDF 得 分 过 高 及 
得 分 过 低 的 单词 ， 保 留 得 分 处 于 中 间 段 的 单词 作为 特征 词典 ， 实 验 表 
明 以 这 些 单词 作为 特征 ， 其 去 重 效果 较 好 。 


T 


图 10-7 I-Match 算 法 流程 的 示意 图 


获得 全 局 的 特征 词典 后 ， 对 于 需要 去 重 的 网 页 ， 扫 描 一 遍 即 可 获 
得 在 该 页 面 中 出 现 过 的 所 有 单词 ， 对 于 这 些 单 词 ， 用 特征 词典 进行 过 
We: 保留 在 特征 词典 中 出 现 过 的 单词 ， 以 此 作为 表达 网 页 内 容 的 特 
E; 没有 在 特征 词典 中 出 现 过 的 单词 则 直接 抛弃 。 通 过 这 种 方式 ， 抽 
取出 文档 对 应 的 特征 ， 之 后 利用 哈 希 函数 (I-Match 算 法 采取 SHA1 作 为 
REKO 对 文档 的 所 有 特征 词汇 整体 进行 哈 希 计算 ， 得 到 一 个 唯一 
的 数值 ， 以 此 哈 希 数值 作为 该 网 页 的 信息 指纹 。 

对 网 页 集合 里 所 有 网 页 部 计算 出 相应 的 信息 指纹 后 ， 如 何 判 断 两 
个 网 页 是 否 是 近似 重复 网 页 ?I-Match 算 法 于 此 很 直观 ， 可 以 直接 比较 
te ee eee ine nee 
Th 

回顾 上 市 所 讲 Shingling 算 法 的 特征 抽取 过 程 ， 从 上 述 对 应 的 工 
Match 算 法 的 特征 抽取 过 程 可 以 看 出 ，I-Match 算 法 抽取 出 的 文档 特征 是 
一 个 个 独立 的 单词 ， 单 词 之 间 的 顺序 没有 被 考虑 进来 ， 所 以 I-Match 算 
法 对 于 文档 之 间 单 词 顺序 的 变化 并 不 敏感 ， 如 果 两 个 文档 所 包含 的 单 
词 相同 ， 但 是 单词 顺序 进行 了 变换 ，I-Match 算 法 一 定 会 将 其 算 做 重复 


Z 


内 容 


LMatch 算 法 的 优点 在 于 其 效率 很 高 ， 因 为 每 个 文档 被 映射 为 单一 
的 哈 硕 值 ， 以 单一 数值 作为 文档 的 表征 ， 必 然 在 计算 速度 上 优 于 多 值 
表征 ， 因 为 可 以 避免 复杂 的 集合 运算 。 

但 十 I-Match 算 法 也 包含 不 少 问题 ， 自 完 ， 对 于 短文 本 来 说 ， 很 容 
易 出 现 误 判 ， 也 束 古 说 两 个 文档 本 来 不 是 近似 重复 网 页 ， 但 是 I-Match 
算法 容易 将 两 者 判断 为 重复 内 容 。 之 所 以 会 如 此 ， 原 因 束 在 上 文 提 到 
的 特征 词典 ， 假 设 两 个 短文 本 内 容 并 不 相似 ,但 古 经 过 特征 词典 过 渡 
后 ， 只 能 保留 很 少儿 个 单词 作为 文档 的 特征 ， 而 如 琳 这 几 个 单词 十 相 
同 的， 那么 目 然 会 将 这 两 个 文档 误 判 为 近似 重复 网 页 。 其 根本 原因 在 
于 特征 词典 覆 间 不足 ， 导 至 文档 很 多 信息 被 过 多 过 滤 ， 对 于 短文 本 这 
个 问题 尤其 严重 。 

另外 一 个 更 加 突出 的 问题 是 ，I-Match 算 法 的 稳定 性 不 好 。 所 谓 稳 
定性 不 好 ， 指 的 是 对 于 某 个 文档 A 做 了 一 些 较 小 的 内 容 变 动 ， 形 成 狐 文 
档 B， 本 来 应 该 将 两 着 看 做 近似 重复 文档 ， 但 是 L-Match 算 法 很 可 能 
法 将 其 计算 为 我 们 希望 的 结果 ， 即 I-Match 算 法 对 于 增删 单词 这 种 变化 
比较 敏感 ， 这 十 由 于 I-Match 算 法 所 采用 的 特征 词典 机 制 和 SHA1 哈 布 算 
法 共同 导致 的 。 


我 们 可 以 考虑 如 下 的 极端 情形 ， 对 于 某 个 文档 A， 我 们 向 其 中 加 入 
一 个 新 的 单词 w ( 即 w 没 有 在 A 中 出 现 过 ) ， 形 成 文档 B。 通 过 LMatch 
算法 的 特征 词典 对 两 个 文档 进行 特征 过 滤 ， 因 为 两 者 的 差别 只 有 这 个 
新 加 入 的 单词 w， 所 以 如 果 单词 w 不 在 特征 词典 中 ， 那 么 文档 A 和 文档 B 
的 对 应 特征 集合 相同 ， 所 以 哈 希 后 的 信息 指纹 也 一 定 相同 ，LMatch 会 
认为 两 个 文档 是 近似 重复 文档 ， 这 是 我 们 想 要 的 结果 ; 但是， 如 果 单 
词 w 出 现在 特征 词典 中 ， 那 么 文档 B 的 特征 集合 会 比 文档 A 多 一 个 特 
征 ， 即 单词 w， 而 SHA1 哈 希 算法 对 于 这 种 差异 很 敏感 ， 会 将 两 个 文档 
瞎 射 成 两 个 不 同 的 信息 指纹 ， 即 出 现 了 稳定 性 不 佳 的 问题 。 很 明显 ， 
这 个 问题 是 由 特征 词典 和 SHA1 哈 希 算法 共同 决定 的 ， 可 以 看 做 是 
Match 算 法 为 了 计算 效率 所 付出 的 代价 。 

为 了 解决 原始 I-Match 算 法 存在 的 稳定 性 不 佳 问 题 ，Kolcz 等 人 提出 
了 改进 算法 (参考 图 10-8) 。 其 基本 出 发 点 也 很 直观 ， 原 始 LMatch 算 
法 对 于 文档 内 容 改 变 过 于 敏感 ， 原 因 在 于 其 严重 依赖 于 特征 词典 的 选 
择 ， 为 了 减少 这 种 依赖 性 ， 可 以 考虑 同时 采用 多 个 特征 词典 ， 而 每 个 
特征 词典 大 体 相 近 ， 同 时 又 必须 有 微小 的 差异 。 
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对 于 某 个 需要 判别 是 否 重复 的 文档 A， 对 应 每 个 特征 词典 ， 生 成 多 
个 信息 指纹 。 如 采 向 文档 A 增加 新 的 单词 w 形 成 文档 B， 因 为 存在 多 个 
大 致 相同 但 有 微小 差异 的 特征 词典 ， 所 以 有 很 大 可 能 某 个 特征 词典 不 
包含 这 个 单词 ， 所 以 通过 这 个 特征 词典 算出 的 文档 B 的 信息 指纹 和 文档 


A 是 相同 的 。 在 判断 A 和 B 两 个 文档 是 否 重复 时 ， 同 时 考虑 多 个 信息 指 
纹 的 情况 ， 只 要 两 个 文档 对 应 的 众多 信息 指纹 中 有 任意 一 个 是 相同 
的 ， 则 可 以 判定 两 者 是 重复 文档 。 这 样 束 解 决 了 I-Match 算 法 对 增删 单 
词 过 于 敏感 的 问题 。 

那么 如 何 形成 多 个 “大 致 相 同 又 有 微小 差异 ”的 特征 词典 呢 ? Kolcz 
是 如 此 解决 这 个 问题 的 : 类 似 于 原始 LMatch 算 法 ， 形 成 一 个 特征 词 
典 ， 为 了 和 其 他 词典 区 分 ， 可 以 称 为 主 特征 词典 ;然后 根据 主 特征 词 
典 伪 生出 其 他 若干 个 辅助 特征 词典 ， 为 了 能 够 达到 词典 内 容 大 致 相 
同 ， 又 能 有 微小 差异 ， 可 以 考虑 从 主 特征 词典 中 随机 抽取 很 小 比例 的 
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助 特征 词典 和 主 特征 词典 一 起 作为 算法 采用 的 多 个 特征 词典 。 通 过 如 
此 做 法 ， 即 可 保证 每 个 词典 大 致 内 容 相同 ， 其 间 又 有 微小 差异 ， 能 够 
达到 所 期 望 的 效果 。 

图 10-8 中 演示 了 这 个 过 程 ， 图 中 包含 两 个 从 主 特征 词典 仿生 的 辅助 
特征 词典 ， 其 中 一 个 抛弃 了 主 特征 词典 的 特征 5 和 特征 6， 男 外 一 个 则 
抛弃 了 特征 3 和 特征 4， 如 此 惑 形 成 了 3 个 特征 词典 。 对 于 某 个 文档 ， 根 
据 3 个 特征 词典 分 别 形成 3 个 信息 指纹 ， 如 果 两 个 文档 有 任意 一 个 信息 
KAHE, ， 则 可 以 判定 为 重复 文档 。 

原始 的 I-Match 算 法 将 文档 映射 成 唯一 的 信息 指纹 ， 虽 然 增加 了 计 
算 效 率 ， 但 是 明显 存在 信息 表达 不 足 的 问题 ， 改 进 的 LMatch 算 法 本 质 
上 是 将 一 个 文档 映射 成 多 个 信息 指纹 ， 可 以 认为 是 将 文档 里 更 多 的 信 
息 进 行 了 编码 ， 这 种 做 法 与 前 述 章 节 的 SuperShingle 的 做 法 类 似 ， 
SuperShingle 也 是 将 文档 压缩 成 多 个 信息 指纹 ， 区 别 在 于 : SuperShingle 
是 将 信息 由 多 到 少 进行 进一步 压缩 ， 而 改进 的 IMatch 算 法 是 从 唯一 的 
言 息 指纹 将 信息 由 少 到 多 进行 扩展 。 虽 是 殊 途 ， 毕 况 同 归 。 


10.4 SimHash 算 法 


经 过 实践 证 明 ，SimHash 算 法 可 能 是 目前 最 优秀 的 去 重 算法 之 一 ， 
Google 内 部 应 该 采用 以 SimHash 算 法 为 基础 的 改进 去 重 方法 来 对 网 页 进 
行 预 处 理 ， 而 且 已 对 此 算法 申请 了 专利 保护 。 

严格 来 说 ，SimHash 算 法 可 以 看 做 是 局 部 敏感 哈 希 框架 (Locality 
Sensitive Hashing Schema) 的 一 个 实现 特例 。 经 过 理论 分 析 ， 本 章 前 述 
章节 讲 到 的 “改进 的 Shingling 算 法 ?| 入 多 个 哈 希 函数 ， 究 其 本 质 ， 也 是 
局 部 敏感 哈 希 框架 的 一 个 具体 实现 方式 而 已 。 


局 部 敏感 哈 希 框架 之 所 以 在 海量 文本 处 理 方面 大 行 其 道 ， 源 于 其 
有 趣 的 特性 : 两 个 文档 内 容 越 相似 ， 则 其 对 应 的 两 个 哈 布 值 也 越 接 
近 ， 所 以 可 以 将 文本 内 容 相似 性 问题 转换 为 哈 布 值 的 相近 性 问题 。 而 
利用 哈 希 值 ， 很 明显 比 文 本 计算 速度 快 得 多 ， 同 时 用 哈 希 值 表 示 文 
档 ， 也 大 大 节省 了 存储 空间 。 这 与 一 般 哈 希 函数 的 使 用 目的 截然 相 
F RRB] EII SIH AE 18 Bl AS E] 

此 

SimHash 算 法 也 可 以 划分 为 两 个 步骤 : 文档 指纹 计算 和 相似 文档 碍 
找 。 文 档 指纹 计算 的 目的 是 将 一 篇 文本 文档 转换 为 固定 大 小 的 二 进 制 
数值 ， 以 此 作为 文档 的 信息 指纹 ， 相 似 性 查找 阶段 则 根据 信息 指纹 来 
找 出 哪些 文档 是 近似 重复 的 。 


10.4.1 文档 指纹 计算 


图 10-9 是 SimHash 算 法 第 1 阶段 的 具体 流程 图 ， 通 过 这 个 步骤 将 文 
进 制 表示 的 文档 指纹 。 其 内 容 转换 过 程 又 可 分 为 如 下 几 个 
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文档 指纹 
图 10-9 SimHash 算 法 第 1 阶段 的 具体 流程 图 


首先 ， 从 文档 内 容 中 抽取 一 批 能 表征 文档 的 特征 ， 至 于 具体 实 
珊 ， 则 可 以 采取 不 同 的 入 到 方法 ， 经 过 此 步骤 获得 文档 的 特征 及 其 

之 后 ， 利 用 一 个 哈 希 画 数 将 每 个 特征 映射 成 固定 长 度 的 二 进 制 表 
示 ， 如 图 10-9 所 示 为 长 度 等 于 6 比特 的 二 进 制 向 量 ， 这 样 每 个 特征 就 转 
换 为 6 比特 二 进 制 向 量 及 其 权 值 。 

接 下 来 ， 利 用 权 值 改写 特征 的 二 进 制 向 量 ， 将 权重 融入 向 量 中 ， 
形成 一 个 实数 向 量 。 假 设 某 个 特征 的 权 值 是 w， 则 对 二 进 制 向 量 做 如 下 
改写 ;如 果 二 进 制 的 某 个 比特 位 是 数值 1， 则 实数 向 量 中 对 应 位 置 改 写 
为 数值 w; 如 果 比 特 位 数值 为 0， 则 实数 向 量 中 对 应 位 置 改写 为 数值- 
w， 即 权 值 的 负数 。 通 过 以 上 规则 ， 就 将 二 进 制 向 量 改 为 体现 了 特征 权 
重 的 实数 向 量 。 

当 每 个 特征 都 进行 了 上 述 改写 后 ， 对 所 有 特征 的 实数 向 量 累加 获 
得 一 个 代表 文档 整体 的 实数 向 量 。 累 加 规则 也 很 简单 ， 就 是 将 对 应 位 
置 的 数值 累加 即 可 。 

最 后 一 步 ， 再 次 将 实数 向 量 转 换 为 二 进 制 向 量 ， 转 换 规则 如 下 : 
如 果 对 应 位 置 的 数值 大 于 0， 则 设置 为 二 进 制 数字 1， 如 果 小 于 等 于 0， 
则 设置 为 二 进 制 数字 0。 在 如 图 10-9 所 示 的 实例 中 ，6 个 数值 再 次 转换 为 
长 度 为 6 比特 的 二 进 制 数值 110001。 如 此 ， 就 得 到 了 文档 的 信息 指 弘 ， 
即 最 终 的 二 进 制 数值 串 。 


10.4.2 ”相似 文档 查找 


对 每 个 文档 都 按照 上 述 规 则 进行 映射 ， 将 文档 转换 为 固定 大 小 的 
二 进 制 数值 ， 在 实际 计算 中 ， 往 往 会 将 长 度 设 定 为 64， 即 每 个 文档 转 
换 为 64 比 特 的 二 进 制 数值 。 

对 于 两 个 文档 A 和 B， 其 内 容 相似 性 可 以 通过 比较 二 进 制 数值 的 差 
异 来 体现 ， 内 容 越 相 似 ， 则 二 进 制 数值 对 应 位 置 的 相同 的 0 或 者 1 越 
多 ， 两 个 二 进 制 数值 不 同 的 二 进 制 位 数 被 称 为 “ 海 明 距 离 ”。 比 如 假设 
文档 A 的 二 进 制 表示 为 1000001， 而 文档 B 的 二 进 制 表示 为 1100001， 则 
只 有 第 2 个 位 置 的 二 进 制 数字 不 同 ， 所 以 其 海 明 距 离 为 1。 不 同 的 二 进 
制 数 字 个 数 越 多 ， 即 海 明 距 离 越 大 ， 则 文档 越 不 相似 ， 一 般 对 于 64 位 
二 进 制 数 来 说 ， 判 断 两 个 文档 是 否 近 似 重复 的 标准 是 : 海 明 距 离 是 否 
小 于 等 于 3， 如 果 两 个 文档 的 二 进 制 数值 小 于 等 于 3 位 不 同 ， 则 判定 为 
近似 重复 文档 。 


海量 的 网 页 经 过 上 述 步骤 ， 转 换 为 海量 的 二 进 制 数值 ， 此 时 如 果 
新 抓 取 到 一 个 网 页 ， 如 何 找 出 近似 重复 的 内 容 ? 

一 个 很 容易 想到 的 方式 是 一 一 匹配 〈 图 10-10) ， 将 新 网 页 Q 转 换 
为 64 比 等 的 二 进 制 数值 ， 之 后 和 索引 网 页 一 一 比较 ， 如 有 条 两 者 的 海 明 
距离 小 于 等 于 3， 则 可 以 认为 是 近似 重复 网 页 。 这 种 方法 虽然 直观 ， 但 
征 计算 量 过 大 ， 所 以 在 以 亿 计 的 网 页 中 ， 实 际 是 不 太 可 行 的 。 
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图 10-10 ”指纹 一 一 比较 法 


为 了 加 快 比较 速度 ，SimHash 采 取 了 变通 方法 ， 其 本 质 思想 是 将 索 
引 网 页 根据 文档 指纹 进行 分 组 ， 新 网 页 只 在 部 分 分 组 内 进行 匹配 ， 以 
减少 新 文档 和 索引 网 页 的 比较 次 数 。 

图 10-11 展 示 了 这 种 思想 的 具体 实现 方法 ， 首 先 对 于 64 位 长 度 的 二 
进 制 数 值 进行 分 块 ， 每 16 位 作为 一 块 ， 这 样 每 个 二 进 制 数值 被 划分 为 4 
块 ， 可 分 别 以 A、B 、C、D 块 来 命名 。 对 于 海量 的 索引 网 页 ， 依 据 分 块 
进行 聚 关 ， 比 如 对 于 A 块 来 说 ， 根 据 其 A 块 内 16 位 二 进 制 聚 类 ， 如 果 16 
位 二 进 制 都 相同 ， 则 这 些 网 页 被 看 做 是 一 个 聚 类 ， 即 一 组 ， 这 样 根 据 A 
块 就 可 以 将 所 有 索引 网 页 分 成 若干 组 数据 。 对 于 B、C 和 D 来 说 也 是 如 
此 ， 即 相同 的 16 位 二 进 制 网 页 作为 一 个 分 组 。 如 此 ， 就 将 所 有 索引 网 
页 琶 合 成 很 多 组 小 的 数据 集合 ， 每 一 组 必 有 连续 16 位 二 进 抽 数字 是 相 
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对 于 新 抓 取 的 网 页 ， 同 样 将 64 比 特 二 进 制 数据 分 为 4 块 : Q1、 
Q2、Q3、Q4。 在 索引 网 页 的 分 组 中 ， 找 到 对 应 A 块 1 位 和 Q1 完 全 相同 
的 那个 分 组 ， 之 后 与 分 组 内 的 网 页 一 一 比较 来 查找 哪些 网 页 是 近似 重 
复 的 。 对 于 Q2、Q3 和 Q4 也 做 同样 处 理 。 这 样 就 可 以 用 较 少 的 代价 ， 找 
到 全 部 索引 网 页 中 和 新 抓 取 网 页 近似 重复 的 内 容 。 


10.5 ”SpotSig 算 法 


SpotSig 是 个 很 有 趣 的 算法 ， 最 初 算 法 设计 者 是 为 了 解决 新 闻 内 容 
的 近似 重复 判断 而 提出 这 个 方法 的 。 

这 个 算法 基于 如 下 观察 : 很 多 新 闻 的 主体 内 容 大 致 相同 ， 但 是 页 
面 布局 往往 差异 很 大 ， 比 如 有 很 多 导航 链接 或 者 广告 链接 及 其 文字 。 
那么 ， 新 闻 主 体 和 页 面 布局 区 域 在 使 用 文字 上 有 何 种 明显 差异 呢 ? 一 
个 很 明显 的 差异 是 : 停 用 词 在 两 者 中 的 分 布 是 不 一 样 的 ， 痢 闻 正文 中 
停 用 词 一般 是 比较 均匀 而 频繁 出 现 的 ， 但 是 在 其 他 区 域 中 却 很 少 出 现 
停 用 词 。SpotSig 提 出 者 觉得 这 个 差异 可 以 被 用 来 识别 近似 重复 新 闻 。 


SpotSig 算 法 整体 框架 也 符合 本 章 第 1 小 节 所 述 ， 但 是 在 具体 实现 方 
法 上 有 独特 之 处 。 


10.5.1 ”特征 抽取 
观察 到 上 述 的 新 闻 正 文 和 其 他 区 域 中 停 用 词 分 布 的 差异 ，SpotSig 


算法 考 虚 用 停 用 词 相关 的 词语 片段 作为 文档 的 特征 。 图 10-12 给 出 了 一 
个 特征 提取 的 实例 。 
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图 10-12 ”特征 提取 的 实例 


首先 确定 要 使 用 的 部 分 停 用 词 ， 并 以 这 些 停 用 词 在 网 页 中 出 现 的 
位 置 作为 销 点 ， 在 图 10-12 的 例子 中 ， 选 取 单 词 a、an、the、is， 以 这 4 
个 停 用 词 作 为 锚 点 。 从 锚 点 向 后 顺序 扫描 ， 取 固定 个 数 的 单词 作为 特 
征 构成 部 分 ， 比 如 例子 中 第 1 次 出 现 的 a， 后 面 紧 跟 着 单词 序列 “rally to 
kick”， 假 设 锁 点 后 跟 单 词 个 数 设 定 为 2， 即 取 单 词 rally 和 Kick 作为 这 个 
销 点 的 特征 组 成 部 分 ， 将 停 用 词 to 过 滤 掉 ， 这 样 a:rally:kick 就 组 成 了 第 1 
个 特征 。 按 照 同 样 的 方式 可 以 获得 文档 所 有 的 特征 ， 组 成 特征 集合 ， 
以 此 来 表征 这 个 文档 。 

文档 特征 是 根据 停 用 词 来 选取 的 ， 如 果 两 个 网 页 内 容 相 同 ， 只 是 
布局 结构 不 同 ， 因 为 页 面 布局 文字 很 少 包 含 停 用 词 ， 所 以 从 页 面 布局 
内 几乎 不 会 抽出 特征 。 也 就 是 说 ， 页 面 布局 对 于 判断 后 续 内 容 近 似 文 
档 基 本 没有 负面 影响 ， 这 也 是 SpotSig 算 法 一 个 显著 的 特色 。 

另外 一 个 与 前 述 去 重 算法 的 不 同 之 处 在 于 : SpotSig 算 法 直接 以 文 
本 串 作 为 特征 ， 而 正如 前 述 章节 所 讲 ， 其 他 算法 大 都 会 将 文本 特征 转 


换 为 数字 特征 ， 而 SpoSig 并 未 如 此 做 。 
10.5.2 ”相似 文档 查找 


获得 文档 的 特征 集合 后 ， 与 Shingling 算 法 类 似 ，SpotSig 采 用 
Jaccard 来 计算 文档 之 间 的 相似 性 。 考 虑 到 计算 量 过 大 ，SpotSig 采 取 了 
两 个 技术 手段 来 加 速 查 找 过 程 : 文档 分 组 和 倒 排 索引 。 

如 果 对 文档 分 组 ， 给 定 一 个 待 判 网 页 ， 则 无 须 和 全 部 索引 网 页 一 
一 比较 ， 只 需要 找到 合适 的 分 组 ， 与 分 组 内 网 页 比较 即 可 ， 这 样 确实 
可 以 极 大 地 提升 系统 速度 。 上 和 所 述 SimHash 也 采取 了 类 似 分 组 的 思路 
来 加 快 计 算 速 度 。 

但 是 如 何 对 文档 分 组 ? 其 依据 是 什么 呢 ? SpotSig 算 法 对 网 页 集合 
进行 分 组 是 基于 如 下 观察 : 因为 采用 的 是 Jaccard 公 式 来 计算 两 个 文档 
的 相似 性 ， 而 且 我 们 只 需要 找到 文档 特征 重 琶 度 足 够 高 的 相似 文档 即 
可 ， 那 么 对 于 相似 性 得 分 可 能 很 低 的 文档 ， 则 尽 可 能 不 去 匹配 。 仔 细 
考察 Jaccard 人 公式， 可 以 得 出 结论 ， 如 果 两 个 文档 A 和 B， 其 长 度 相差 太 
大 ， 利 用 Jaccard 公 式 计 算出 的 两 者 的 相似 性 一 定 很 低 ， 即 两 者 不 可 能 
是 近似 重复 文档 。 所 以 对 于 某 个 待 判 文档 A 来 说 ， 与 其 相似 的 文档 ， 长 
度 一 定 与 文档 A 的 长 度 相差 不 远 。 既 然 如 此 ， 可 以 在 文档 转换 为 特征 集 
合 后 ， 根 据 特 征集 合 的 大 小 对 文档 集合 进行 分 组 ， 而 在 进行 相似 性 计 
算 时 ， 只 在 合适 的 分 组 内 一 一 比较 ， 以 此 加 快 查找 速度 。 

为 了 进一步 加 快 匹 配 速度 ，SpotSig 算 法 对 于 每 个 分 组 内 的 网 页 ， 
分 别 建立 一 套 倒 排 索 引 ， 如 图 10-13 所 示 是 分 组 k 建 立 的 倒 排 索引 片段 。 
对 于 每 个 特征 ， 建 立 倒 排 列表 ， 其 中 d 代 表 文 档 编号 ， 后 面 的 数字 代表 
这 个 特征 在 文档 d 出 现 的 次 数 ， 即 TF， 同 时 ， 倒 排列 表 项 根据 TF 值 由 高 
到 低 排 序 。 这 样 在 计算 Jaccard 相 似 度 的 时 候 ， 可 以 通过 动态 裁剪 的 方 
式 只 匹配 分 组 内 的 部 分 网 页 即 可 ， 不 需要 对 分 组 内 任意 网 页 都 计算 
Jaccard 相 似 度 ， 通 过 此 种 手段 进一步 加 快 了 计算 速度 。 
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图 10-13 “分 组 k 建 立 的 倒 排 索引 片段 
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:一 个 典型 的 去 重 算法 由 特征 抽取 、 文 档 指纹 生成 和 相似 性 计算 3 

个 天 键 环 市 构成 。 

能 够 快速 处 理 海量 数据 是 搜索 引 敬 对 去 重 算法 的 内 在 要 求 ， 去 
重 算法 设计 必须 兼顾 准确 性 和 运行 效率 ， 在 两 者 之 则 取得 平衡 。 

4 种 典型 的 去 重 算法 : Shingling 算 法 、I-Match 算 法 、SimHash 算 
法 、SpotSig 算 法 。 看 似 迎 异 ， 很 多 基本 思路 相近 。 


本 章 参考 文献 


[1] Broder, A. (1995). Some applications of Rabin's fingerprinting 
method. In Renato Capocelli, Alfredo De Santis, and Ugo Vaccaro, editors, 
Sequences II: Methods in Communications, Security, and Computer Science. 

|2| Broder, A., Glassman, S., Manasse, M., and Zweig, G. (1997). 
Syntactic clustering of the Web. In 6th International World Wide Web 
Conference (Apr. 1997), 393-404. 

[3] Charikar, M. S. (2002). Similarity estimation techniques from 
rounding algorithms. In 34® Annual ACM Symposium on Theory of 
Computing. 

| 4 | Fetterly, D., Manasse, M., and Najork, M. (2003). On the 
evolution of clusters of near-duplicate Web pages. In 1st Latin American 
Web Congress. 

[5 | Chowdhury, A., Frieder, O., Grossman, O., and McCabe, M. C. 
(2002). Collection statistics for fast duplicate document detection. ACM 
Transactions on Information Systems, 20 (2): 171-191. 


[6] Henzinger, M. (2006). Finding near-duplicate Web pages: A large 
scale evaluation of algorithms. In Proceedings of the 29 Annual 
International ACM SIGIR Conference on Research and Development in 
information retrieval. Seattle, Washington. 421-428. 


[7] Kołcz, A., Chowdhury, A., and Alspector J. (2004). Improved 
robustness of signature-based near-replica detection via lexicon 
randomization. Proceedings of the tenth ACM SIGKDD. international 
conference on Knowledge discovery and data mining, Seattle, WA, USA. 
605-610. 


[8] Theobald, M., Siddharth, J., and Paepcke, A. (2008). Spotsigs: 
robust and efficient near duplicate detection in large web collections. In 
SIGIR '08, 563-570. 

[9] Manku, G.S., Jain, A., and Das A. (2007). Detecting near- 
duplicates for web crawling. In WWW '07. 


第 11 章 ”搜索 引擎 缓存 机 制 


“一 切 有 为 法 ， 皆 如 梦幻 泡影 ， 如 露 亦 如 电 ， 应 作 如 是 观 ” 
e 《人 金刚 经 》 


缓存 (Cache) 是 目前 所 有 搜索 引 警 都 会 采用 的 技术 。 所 谓 缓存 ， 
就 是 在 高 速 内 存 硬件 设备 内 开辟 一 块 数据 存储 区 ， 用 来 容纳 常见 的 用 
户 查 询 及 搜索 结果 (或 者 索引 数据 及 搜索 的 中 间 结 果 ) ， 同 时 采取 一 
定 的 管理 策略 来 维护 存储 区 内 的 数据 。 当 搜索 引擎 接收 到 用 户 查 询 请 
求 时 ， 首 移 在 缓存 系统 里 碍 找 ， 如 采 能 够 找到 则 直接 返回 搜索 结 采 ， 
否则 采取 正常 的 搜索 流程 来 返回 搜索 结 来 。 

为 何 搜索 引 警 要 引入 缓存 机 制 ? 一 则 使 用 缓存 系统 能 够 加 快 用 户 
查询 响应 的 速度 ， 另 外 还 可 以 有 效 地 减少 搜索 引擎 后 台 计 算 量 ， 节 省 
计算 资源 。 

对 于 一 个 正常 的 搜索 流程 ， 比 如 用 户 输入 查询 请 求 “搜索 引擎 ” 技 
术 ”， 搜 索引 擎 需要 分 别 将 存储 在 磁盘 上 的 两 个 单词 的 倒 排 索 引 读 入 内 
存 ， 之 后 进行 解压 缮 ， 人 然后 求 两 个 单词 对 应 倒 排列 表 的 交集 ， 找 到 所 
有 包含 两 个 单词 的 文档 集合 ， 根 据 排序 算法 来 对 每 个 文档 的 相关 性 进 
行 打分 ， 按 照相 关 度 输出 相关 度 最 高 的 搜索 结果 。 

以 上 这 个 流程 涉及 了 磁盘 读 写 、 内 存 运 算 等 一 系列 操作 ， 相 对 
比较 耗费 时 间 和 计算 资源 。 如 琳 将 本 次 搜索 结 来 存储 在 绥 存 中 ， 下 次 
遇 到 相同 的 查询 请 求 ， 则 可 以 直接 将 搜索 结果 返回 ， 不 需要 经 过 上 述 
的 复杂 流程 进行 计算 。 缓 存 一般 用 最 快 的 内 存 设 备 进行 存储 ， 所 以 啊 
应 速度 非常 快 ， 同 时 也 省 略 了 相当 多 的 磁盘 读 取 和 计算 步 又 ， 有 效 地 
节省 了 计算 资源 。 

以 上 搜索 加 速 行 为 能 够 成 立 ， 其 实 隐 含 了 一 个 假设 ， 即 : 相同 的 
用 户 查 询 会 反复 出 现 。 只 有 这 个 假设 成 立 ， 才 能 够 利用 以 上 措施 来 加 
快 搜索 速度 ， 但 是 问题 是 这 个 假设 成 立 吗 ? 

这 涉及 用 户 查 询 分 布 本 喘 具 有 的 特点 。 我 们 先 看 下 用 户 搜索 请 求 
行为 有 哪些 竺 点。 目前 有 很 多 人 研究 集中 在 分 析 用 户 搜索 行为 ， 通 过 对 
搜索 日 志 的 分 析 ， 可 以 得 出 如 下 结论 。 


1. 至 少 63.526 的 搜索 引擎 用 户 只 看 搜索 结果 第 1 页 的 内 容 (默认 是 
排名 头 10 位 的 搜索 结果 ) ， 大 约 11.7% 的 搜索 引擎 用 户 会 翻 看 搜索 结果 
第 2 页 内 容 ; 至 少 79% 的 搜索 引 敬 用户 只 查看 搜索 结果 前 3 页 的 内 容 。 

2. 用 户 发 出 的 查询 请 求 分 布 符合 逆 Power-Law 规 则 ， 即 少数 查询 
占 了 查询 总 数 的 相当 比例 ， 而 大 多 数 查 询 出 现 次 数 非 常 少 。 在 十 亿 规 
模 的 搜索 日 志 记 录 中 ，63.7% 的 用 户 查 询 只 出 现 过 一 次 ， 而 热门 查询 占 
搜索 请 求 总 数 的 比例 非常 高 ， 最 热门 的 25 个 用 户 搜 索 请 求 占 了 用 户 查 
询 请 求 总 数 的 1.226 一 1.526;， 同时 ， 用 户 查 询 有 很 大 比例 的 重复 性 ， 大 
约 有 302 一 402 的 用 户 查 询 是 重复 查询 。 

3. 用 户 查 询 请 求 具 备 时 间 局 部 性 ， 即 大 多 数 重 复 的 用 户 查 询 会 在 
较 短 的 间 隅 时 间 被 再 次 重复 访问 。 

通过 上 面 的 调查 结论 ， 可 以 看 出 在 一 定 的 时 间 间 隅 内 ， 发 送 到 搜 
索引 警 的 用 户 查 询 有 相当 比例 的 重复 性 ， 而 缓存 机 制 之 所 以 能 够 运用 
在 搜索 引擎 里 来 加 快 系统 响应 速度 ， 与 这 一 点 是 密 不 可 分 的 。 


11.1 搜索 引擎 缓存 系统 架构 


图 11-1 是 一 个 完善 的 搜索 引擎 缓存 系统 架构 示意 图 ， 当 搜索 引擎 接 
收 到 用 户 查 询 的 时 候 ， 会 首 移 在 缓存 系统 查找 ， 看 缓存 内 是 否 包含 用 
户 查 询 的 搜索 结果 ， 如 果 发 现 缓存 已 经 存储 了 相同 查询 的 搜索 结果 ， 
则 从 缓存 内 读 出 结 末 展现 给 用 户 ， 如 琳 缓 存 内 没有 找到 相同 的 用 户 但 
询 ， 则 将 用 户 查 询 按照 常规 处 理 方式 交 由 搜索 引擎 返回 结果 ， 并 将 这 
条 用 户 查 询 的 搜索 结果 及 中 间 数 据 根据 一 定 策略 调 入 缓存 中 ， 这 样 下 
次 遇 到 同样 的 查询 可 以 直接 在 缓存 中 读 取 ， 以 加 快 用 户 啊 应 速度 并 减 
少 搜索 引擎 系统 的 计算 负载 。 


图 11-1 一 个 完善 的 搜索 引擎 缓存 系统 架构 示意 图 


缓存 系统 包含 两 个 部 分 ， 即 缓存 存储 区 及 缓存 管理 策略 。 缓 存 存 
储 区 是 高 速 内 存 中 的 一 种 数据 结构 ， 可 以 存放 某 个 查询 对 应 的 搜索 结 
果 ， 也 可 以 存放 搜索 中 间 结 果 ， 比 如 一 个 查询 单词 的 倒 排 列表 。 


缓存 管理 沫 略 又 包含 两 个 子 系统 ， 即 缓存 淘汰 策略 和 缓存 更 新 策 
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之 所 以 需要 缓存 淘汰 策略 ， 征 因为 不 论 给 缓存 分 配 多 大 空间 ， 当 
系统 运行 到 一 定 程度 ， 很 可 能 缓存 已 经 满 了 ， 当 有 新 的 需要 缓存 的 内 
容 要 进入 缓存 时 ， 需 要 根据 一 定 的 策略 ， 从 缓存 中 剔除 一 部 分 优先 级 
别 较 低 的 缓存 内 容 ， 以 腾 出 空间 供 后 续 内 容 放 入 缓存 存储 区 ， 如 何 选 
择 替 换 项 目 是 缓存 淘汰 策略 需要 考虑 的 问题 。 

另外 ， 使 用 缓存 系统 是 有 一 定 风险 存在 的 ， 即 缓存 内 容 和 索引 内 
容 不 一 致 问题 。 如 果 搜 索引 擎 索引 的 文档 集合 是 静态 文档 ， 这 个 问题 
苹 不 存在 的 ， 因 为 既然 文档 集合 没有 发 生 任 何 变 化 ， 只 要 搜索 引 敬 的 
排序 算法 不 更 改 ， 那 么 针对 固定 的 用 户 查询 ， 其 对 应 的 搜索 结果 是 固 
定 不 变 的 ， 所 以 缓存 里 面 的 内 容 永 不 过 期 。 

但 是 在 一 般 应 用 场景 中 ， 搜 索引 擎 要 处 理 的 文档 集合 是 动态 变化 
的 ， 可 能 会 面临 新 加 入 的 文档 ， 也 可 能 会 删除 旧 的 文档 或 者 旧 的 文档 
内 容 发 生 了 变化 。 当 索引 已 经 反映 了 这 种 变化 ， 而 缓存 数据 没有 随 着 
索引 做 出 相应 的 变化 ， 那 么 就 会 发 生 绥 存 内 容 和 索引 内 容 不 一 致 的 问 
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对 搜索 引擎 缓存 系统 来 说 ， 一 个 优秀 的 缓存 系统 ， 布 望 能 够 在 以 
下 几 个 方面 表现 出 色 。 


1. 最 大 化 缓存 命中 率 


所 谓 缓存 的 命中 率 ， 就 是 说 一 段 时 间 内 所 有 用 户 发 出 的 查询 中 ， 
有 多 大 比例 的 查询 对 应 的 搜索 结 采 是 从 缓存 中 获得 的 。 这 个 比例 越 
高 ， 说 明 绥 存 管理 策略 越 成 功 ， 殊 有 效 地 节省 了 搜索 引擎 的 计算 成 
本 。 具 体 而 言 ， 不同 的 绥 存 淘汰 策略 束 古 采用 不 同 算法 来 获得 尽 可 能 
高 的 命中 率 。 

2. 缓存 内 容 与 索引 内 容 保持 一 致 性 

好 的 缓存 管理 条 略 应 该 避免 出 现 缓存 内 容 和 索引 内 容 不 一 致 的 状 
况 ， 因 为 这 种 不 一 致 会 影响 用 户 搜 索 体验 ， 所 以 缓存 系统 需要 有 优秀 
的 绥 存 更 新 集 略 来 达到 这 个 目的 。 


11.2 RAK 


对 于 搜索 引擎 缓存 ， 在 存储 区 内 存放 的 数据 对 象 并 不 是 唯一 的 ， 
可 以 是 搜索 结果 ， 也 可 以 是 某 个 查询 词汇 对 应 的 倒 排 列表 ， 或 者 是 一 
些 搜索 的 中 间 结 果 。 

最 常见 的 缓存 对 象 类 型 是 用 户 查 询 请 求 所 对 应 的 搜索 结果 信息 ， 
比如 网 页 的 标题 、 URL、 包 含 用 户 查 询 词 的 动态 摘要 等 。 图 11-2 给 出 了 
将 搜索 结果 作为 缓存 内 容 的 示例 ， 缓 存 里 保存 了 “Google", “百度 Wi 
到? 等 用 户 查 询 ， 以 及 其 对 应 的 搜索 结果 。 如 果 此 时 有 另外 一 个 用 户 输 
入 “Google" 作 为 得 询 ， 则 搜索 引擎 首先 在 缓存 里 面 碍 找 ， 发 现 已 经 存在 
这 个 用 户 查 询 项 ， 则 直接 提取 原先 的 搜索 结 采 作为 输出 返回 给 用 户 。 

网 页 标题 。 ”网 页 URL 网 页 动态 摘要 


Google 搜 索 结果 
图 11-2 ”以 搜索 结果 作为 缓存 内 容 


另外 一 种 比较 稼 见 的 存储 对 象 类 型 是 查询 词汇 对 应 的 倒 排列 表 
(Posting List) 。 图 11-3 是 以 单词 倒 排 列表 作为 缓存 内 容 的 一 个 示例 
图 。 从 图 中 可 以 看 出 ， 以 搜索 结果 作为 缓存 内 容 的 情况 下 ， 用 户 查 询 
即使 包含 多 个 单词 ， 也 是 作为 一 个 整体 存储 在 缓存 槽 里 的 ， 而 以 单词 
倒 排列 表 作 为 缓存 内 容 的 方式 ， 其 存储 粒度 相对 会 小 些 ， 是 以 用 户 碍 
询 的 分 词 结 果 存 储 在 缓存 槽 里 的 。 比 如 “百度 ”贴吧 ”这 个 用 户 查 询 ， 


在 搜索 结 采 作为 缓存 内 容 情形 下 占用 一 项 缓存 楼 ， 而 在 缓存 倒 排列 表 
方式 下 会 占用 两 个 缓存 槽 , “百度 "和 “贴吧 ”各 自 占用 一 个 存储 位 置 。 
倒 排列 表 


il 


<1 7 (29 nodded 188,299> 


ipii 
44 


CT Dds 735,1257> 


图 11-3 ”以 单词 倒 排 列表 作为 缓存 内 容 


这 两 种 不 同 的 缓存 存储 内 容 各 目 有 其 优 缺 点 ， 对 于 搜索 结果 型 组 
存 来 说 ， 其 用 户 查 询 啊 应 速度 非常 快 ， 因 为 只 需要 进行 查找 运算 即 可 
返回 结 采 ， 但 是 其 粒度 比较 粗 ， 比 如 在 如 图 11-2 所 示 的 例子 中 ， 如 有 果 此 
时 用 户 输入 查询 “百度 ”百科 ”， 则 搜索 引擎 会 发 现 缓存 里 面 并 不 存在 
这 个 查询 ， 只 能 按照 正常 搜索 流程 ， 去 调用 索引 数据 并 进行 网 页 排序 
等 运算 。 但 是 倒 排 列表 型 缓存 因为 粒度 较 小 ， 会 发 现 “ 百 度 ” 这 个 查询 
词汇 已 经 在 缓存 中 了 ， 此 时 只 需要 从 存储 在 硬盘 的 倒 排 索引 中 读 取 “ 百 
科 ” 这 个 词汇 的 倒 排 列表 数据 ， 然 后 进行 排序 运算 即 可 返回 结 数 。 由 这 
个 例子 可 以 看 出 ， 倒 排列 表 型 缓存 粒度 小 ， 所 以 命中 率 高 ， 但 是 因为 
保存 的 只 是 倒 排列 表 这 种 中 间 数 据 ， 所 以 仍然 需要 进行 后 续 的 计算 才 
能 返回 最 终结 果 ， 在 用 户 啊 应 效率 方面 慢 于 搜索 结果 型 缓存 。 而 搜索 


结果 型 缓存 粒度 大 ， 如 果 在 缓存 内 命中 用 户 查 询 ， 则 很 快 给 出 最 终结 
果 ， 但 是 命中 率 要 低 于 倒 排列 表 型 缓存 。 

另外 ， 搜 索 结果 型 缓存 因为 每 个 搜索 结果 的 大 小 是 可 以 预 估 的 
(一 般 取 前 列 的 K 个 搜索 结果 ) ， 所 以 管理 起 来 比较 简单 ， 而 倒 排列 表 
型 缓存 需要 绥 存 某 个 单词 的 倒 排列 表 ， 而 不 同 单词 的 倒 排列 表 大 小 差 
异 很 大 ， 如 果 遇 到 一 个 非常 大 的 倒 排列 表 ， 可 能 会 对 目前 的 缓存 空间 
造成 较 大 影响 ， 甚 至 被 迫 移出 经 常 使 用 的 用 户 查 询 缓存 项 ， 所 以 如 何 
管理 倒 排列 表 型 缓存 存储 区 相对 而 言 比 较 复杂 。 

以 上 两 种 缓存 对 象 是 比较 常见 的 缓存 类 型 ， 还 有 一 种 不 太 经 常 使 
用 的 方式 ， 即 保留 两 个 经 常 搭配 出 现 单词 的 倒 排列 表 的 交集 ， 以 这 种 
中 间 结果 形式 作为 缓存 内 容 。 因 为 用 户 查询 有 很 大 比例 是 由 2 个 或 者 3 
个 单词 组 成 的 ， 对 于 多 词 构成 的 用 户 查 询 ， 搜 索引 警 在 从 硬盘 读 出 每 
个 词汇 的 倒 排列 表 后 ， 需 要 进行 文档 队列 的 交集 运算 。 而 如 果 能 够 事 


大 ， 都 放置 到 内 存 中 往往 很 困难 ， 所 以 一 般 这 种 中 间 结 果 会 存储 在 磁 
盘 上 “。 这 种 类 型 的 缓存 不 能 单独 使 用 ， 但 是 可 以 作为 多 级 缓存 中 的 一 
个 缓存 级 别 存在 ， 对 其 他 类 型 的 缓存 起 到 补充 作用 。 


11.3 ”缓存 结构 


搜索 引擎 缓存 的 结构 设计 可 以 有 多 种 选择 ， 最 第 见 的 是 单 级 绥 
存 ， 也 可 以 设计 为 二 级 长 至 是 三 级 缓存 结构 。 

单 级 缓存 是 一 种 最 第 见 也 最 简单 直接 的 缓存 结构 ， 缓 存 系统 中 只 
包含 一 个 单一 缓存 ， 配 以 缓存 管理 策略 构成 了 整个 缓存 系统 。 图 11-4 左 
方 和 右 方 分 别 是 搜索 结果 型 和 倒 排 列表 型 单 级 缓存 示意 图 。 


图 11-4 单 级 缓存 


尽管 单 级 缓存 只 包含 一 级 缓存 ， 但 是 对 于 不 同 缓存 对 象 类 型 来 
说 ， 其 内 部 处 理 流程 有 一 定 差 异 。 搜 索 结 果 型 缓存 首先 在 缓存 中 碍 找 
征 否 包含 用 户 查 询 ， 如 果 存 在 则 直接 将 搜索 结 采 返回 ， 人 否则 对 用 户 碍 
询 进 行 处 理 ， 由 搜索 系统 返回 搜索 结果 并 加 入 缓存 中 ， 之 后 将 搜索 结 
条 返回 给 用 户 。 对 于 倒 排 列表 型 缓存 ， 其 处 理 步 又 正好 相反 ， 碍 询 处 


理 阶段 首先 将 用 户 查询 分 词 ， 之 后 在 缓存 中 查找 这 些 单词 对 应 的 倒 排 
列表 ， 如 果 所 有 单词 的 倒 排列 表 都 在 缓存 中 ， 则 由 查询 处 理 模块 根据 
单词 倒 排列 表 对 搜索 结果 进行 排序 ， 并 将 搜索 结果 返回 给 用 户 。 如 果 
发 现 某 些 单词 的 倒 排列 表 不 在 缓存 中 ， 会 首先 从 磁盘 读 入 单词 对 应 的 
倒 排 列表 ， 将 其 放 入 缓存 ， 之 后 进行 查询 处 理 步骤 。 

二 级 绥 丰 结 机 由 两 级 缓 在昌 两 构成 ， 第 1 级 缓存 是 搜索 结果 到 组 
存 ， 第 2 级 缓存 是 倒 排列 表 型 缓存 ， 图 11-5 是 二 级 缓存 示意 图 。 当 系统 
接收 到 用 户 查 询 时 ， 首 先 在 一 级 缓存 查找 ， 如 果 找到 相同 查询 请 求 ， 
则 返回 搜索 结果 ;如果 在 一 级 缓存 没有 找到 完全 相同 的 查询 ， 则 转向 

二 级 缓存 查找 构成 查询 的 各 个 单词 的 倒 排列 表 ， 如 果 某 些 单词 的 倒 排 
列表 没有 在 二 级 绥 存 中 找到 ， 则 从 磁盘 读 取 对 应 的 倒 排列 表 ， 进 入 二 
级 缓存 ， 之 后 ， 对 所 有 单词 的 倒 排 列表 进行 求 交集 运算 并 根据 排序 算 

法 排序 输出 最 相关 的 搜索 结果 ， 将 相应 的 用 户 查 询 和 搜索 结果 放 入 一 
级 缓存 进行 存储 并 返回 最 终结 果 给 用 户 。 采 用 两 级 缓存 结构 的 出 发 
点 在 于 能 够 融合 搜索 结果 型 缓存 的 用 户 快速 响应 速度 和 倒 排列 表 型 组 
存 的 命中 率 高 这 两 个 优点 。 


图 11-5 ”二 级 缓存 示意 图 


11.4 ”缓存 淘汰 策略 (Evict Policy) 


绥 存 淘汰 倘 上 略 是 任何 绥 存 必须 配备 的 管理 策略 。 因 为 缓存 的 大 小 
总 是 有 限 的 ， 当 缓存 已 满 的 时 候 ， 如 果 有 新 的 缓存 项 需要 加 入 ， 那 么 
必须 从 已 有 的 缓存 项 中 剔除 相对 最 不 重要 的 项 目 ， 而 不 同 的 缓存 淘汰 
策略 就 是 根据 不 同 的 算法 来 衡量 项 目的 重要 性 ， 并 别 除 挥 最 不 重要 项 
目 占 用 的 内 存 空 间 。 绥 存 淘汰 策略 方法 众多 ， 从 宏观 角度 ， 可 以 将 其 
分 为 动态 策略 和 议 态 动态 混合 策略 。 


11.4.1 动态 策略 


动态 策略 的 缓存 数据 完全 来 自 于 在 线 用 户 查 询 请 求 ， 这 种 缓存 策 
略 的 基本 思路 是 : 对 缓存 项 保留 一 个 权重 值 ， 这 个 权重 值 根据 查询 命 
中 情况 动态 调整 ， 当 缓存 已 满 的 情况 出 现时 ， 优 先 淘 汰 权重 值 最 低 的 
那个 缓存 项 ， 通 过 这 种 方式 来 腾 出 空间 。 比 较 常 见 的 动态 策略 包括 : 
LRU 策 略 、LandLord 策 略 及 SLRU 等 改进 策略 。 


LRU 策 略 : 最 近 最 少 使 用 策略 (Least Recently Used) 


LRU 淘 汰 策略 是 计算 机 领域 使 用 非常 广泛 的 缓存 替换 算法 ， 在 操 
作 系 统 内 存 管理 和 Web 页 面 缓存 等 领域 也 发 挥 着 重要 作用 。LRU 策 略 的 
基本 思想 是 ， 当 缓存 已 满 时 ， 将 在 设 定 的 时 间 范 围 内 使 用 次 数 最 少 的 
机 目 唱 除 出 缓存 ， 也 就 是 将 在 设 定 时 间 段 范 转 内 最 少 访问 的 用 户 查 询 
剔除 掉 。 

在 实际 系统 中 ， 往 往 为 每 个 缓存 项 设置 一 个 计数 器 ， 将 命中 查询 
的 计数 器 清 零 ， 与 此 同时 ， 其 他 查询 计数 器 加 1。 如 果 缓 存 已 满 ， 则 将 
计数 器 数值 最 大 的 项 目 剔除 出 缓存 。 


LandLord 策 略 


LandLord 策 略 是 一 种 加 权 缓 存 策略 (Weighted Cache) 。 其 基本 计 
算 流 程 如 下 : 当 一 个 缓存 项 插入 缓存 的 时 候 ， 会 根据 缓存 项 能 够 获得 
收益 和 缓存 项 所 占 内 存 大 小 的 比率 设 定 一 个 过 期 值 (Deadline) ， 可 以 
将 这 个 比率 理解 为 系统 缓存 这 个 项 目的 性 价 比 。 如 果 缓 存 已 满 ， 需 要 
史 除 项 目的 时 候 ， 选 择 过 期 值 最 小 的 项 目 进行 淘汰 ， 即 淘汰 性 价 比 最 
低 的 项 目 。 同 时 ， 其 他 未 衫 淘汰 的 项 目 对 应 的 过 期 值 都 减 去 被 淘汰 项 
目的 过 期 值 ， 如 果 一 个 查询 请 求 在 缓存 中 命中 时 ， 会 相应 地 将 其 过 期 
值 根 据 一 定 策 略 调 大 。 


SLRU 策 略 : 大 小 自 适 应 LRU (Size-adjusted LRU) 


SLRU 策 略 是 对 LRU 方 法 的 改进 。 缓 存 被 分 为 两 个 部 分 : 非 保护 区 
域 和 保护 区 域 。 每 个 区 域 的 缓存 项 都 按照 最 近 使 用 频 度 由 高 到 低 排 
序 ， 频 率 高 端 叫 做 MRU， 低 端 叫 做 LRU“。 如 果 某 个 查询 没有 在 缓存 中 
找到 ， 那 么 将 这 个 查询 放 入 非 保 护 区 域 的 MRU 端 ， 如 果 某 个 查询 在 组 
存 命 中 ， 则 把 这 个 查询 记录 放 到 保护 区 的 MRU 端 ;如果 保护 区 已 满 ， 
则 把 记录 从 保护 区 放 入 非 保护 区 的 MRU， 这 样 保 护 区 的 记录 最 少 要 被 
访问 两 次 。 淘 汰 机 制 是 将 非 保护 区 的 LRU 端 缓存 项 淘汰 。 


11.4.2 混合 策略 


动态 策略 的 缓存 数据 完全 来 目 于 在 线 的 用 户 查 询 请 求 ， 混 合 策略 
与 此 不 同 ， 其 缓存 数据 一 方面 来 自 于 在 线 用 户 查 询 ， 一 方面 来 和 目 于 搜 
索 日 志 等 历史 数据 。 目 前 效 末 较 好 的 混合 策略 包括 SDC 宽 上 略 和 AC 和 宽 
略 。 图 11-6 是 这 种 集 略 的 示意 图 。 


图 11-6 静态 动态 混合 策略 示意 图 


SDC 策 略 : 静态 动态 混合 缓存 策略 (Static and Dynamic 
Caching) 


SDC 策 略 是 一 种 混合 缓存 策略 ，SDC 将 缓存 切割 为 两 个 部 分 ， 一 
个 静态 缓存 与 一 个 动态 缓存 。 所 谓 静 态 缓 存 ， 即 缓存 内 容 是 事 允 根据 
搜索 日 志 统计 出 的 最 高 频 的 那 部 分 查询 请 求 ， 在 一 定时 间 范 围 里 是 相 
对 不 变 的 ， 而 动态 缓存 则 可 以 配合 使 用 LRU 等 其 他 绥 存 管理 策略 ， 根 
据 用 户 查 询 请 求 不 断 更 换 内 容 。 通 过 同时 使 用 静态 缓存 和 动态 缓存 ， 


可 以 有 效 增加 绥 存 请 求 命 中 率 。SDC 是 目前 效果 最 好 的 缓存 策略 之 


AC 策 略 : 准 入 策略 (Admission Control) 


准 入 策略 是 类 似 于 SDC 策 略 的 一 种 方法 。 该 方法 也 将 绥 存 分 为 两 
个 部 分 ， 分 别 存储 高 频 出 现 的 历史 用 户 查 询 和 动态 出 现 的 用 户 查 询 及 
其 对 应 的 搜索 结果 。 与 SDC 不 同 之 处 在 于 : SDC 的 静态 缓存 所 存储 的 
高 频 用 户 查 询 是 完全 从 过 去 的 搜索 日 志 统 计 得 来 的 静态 内 容 ， 而 AC 策 
略 则 综合 了 搜索 日 志 的 统计 数据 、 查 询 长 度 等 多 个 判断 因素 ， 以 此 来 
a 如 果 判 断 是 ， 则 放 入 高 频 用 

查询 缓存 。 


11.5 ”缓存 更 新 策略 (Refresh Policy) 


如 果 搜 索引 警 的 索引 内 容 不 发 生变 化 ， 缓 存 的 内 容 就 总 是 和 索引 
系统 保持 一 致 。 但 是 搜索 引擎 索引 经 常 更新， 如 果 索 引 内 容 发 生变 
化 ， 而 缓存 内 容 不 随 春 索引 变动 ， 会 导致 缓存 内 容 和 索引 内 容 的 不 一 
致 ， 这 种 不 一 致 对 于 用 户 的 搜索 体验 会 造成 负面 影响 。 缓 人 存 更 新 俩 略 
台 生 通过 一 定 的 扩 术 手段 尽 可 能 保持 缓存 内 容 和 索引 内 容 的 一 致 性 。 

目前 很 多 搜索 引擎 使 用 简单 的 更 新 策略 ， 即 在 搜索 引擎 比较 繁忙 
的 时 候 不 考虑 缓存 更 新 问题 ， 而 等 到 搜索 引擎 请 求 很 少 的 时 候 ， 比 如 
午夜 等 时 间 段 ， 将 缓存 内 的 内 容 批 量 进行 更 新 ， 使 缓存 内 容 保持 和 索 
引 和 内容 的 一 致 。 这 种 简单 策略 适合 索引 更 新 不 是 非 钊 频 党 的 应 用 场 
景 ， 对 于 索引 更 新 频繁 的 场景 ， 和 需要 相对 复杂 些 的 缓存 更 新 策略 。 

根据 缓存 内 容 和 索引 内 容 联 系 的 密切 程度 ， 目 前 的 缓存 更 新 策略 
可 以 分 为 两 种 : 缓存 一 索引 密切 耦合 沫 略 和 缓存 一 索引 非 耦 合 策 略 。 

绥 存 一 索引 密切 类 合 策略 在 索引 和 绥 存 之 间 增 加 一 种 直接 的 变化 
通知 机 制 ， 一 旦 索引 内 容 发 生变 化 则 通知 缓存 系统 ， 缓 存 系 统 根据 一 
定 的 方法 判断 哪些 缓存 的 内 容 发 生 了 改变 ， 然 后 将 改变 的 缓存 内 容 进 
行 更 新 ， 或 者 设 定 缓存 项 为 过 期 ， 这 样 吏 可 以 紧密 跟踪 并 反映 索引 变 
化 内 容 。 这 种 密切 厦 合 策略 在 实际 实现 时 是 非常 复杂 的 ， 因 为 频 烷 的 
索引 更 新 导致 频 和 党 的 缓存 更 新 ， 对 系统 效率 及 缓存 命中 率 都 会 有 直接 
影响 。 图 11-7 古 一 个 缓存 一 索引 密切 厦 合 策略 的 示意 图 。 当 有 新 的 索引 
文档 进入 搜索 引擎 时 ， 系 统 会 对 文档 内 容 进行 分 析 ， 抽 取出 文档 中 
TF*IDF 得 分 较 高 的 索引 词汇 ， 并 将 这 些 词汇 及 其 得 分 传递 给 失效 通知 
模块 ， 因 为 如 果 缓 存 中 的 查询 包含 这 些 索 引 词汇 的 话 ， 很 可 能 该 文档 


将 会 使 得 缓存 内 容 失 效 ， 失 效 通知 模块 会 评估 哪些 缓存 项 需要 进行 内 
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新 抓 取 网 页 


图 11-7 “缓存 一 索引 密切 看 合 策略 示意 图 


缓存 一 索引 非 耦 合 策略 则 使 用 相对 简单 的 策略 ， 当 索引 变化 时 并 
不 随时 通知 缓存 系统 进行 内 容 更 新 ， 而 是 给 每 个 缓存 项 设 定 一 个 过 期 
值 (Time To Live) ， 随 着 时 间 流 逝 ， 缓 存 项 会 逐步 过 期 。 通 过 这 种 方 
式 可 以 将 缓存 项 和 索引 的 不 一 致 尽 可 能 减 小 。 雅 虎 的 搜索 引 警 采用 了 
缓存 -索引 非 耦 合 策略 来 维护 缓存 内 容 的 更 新 。 


本 章 提要 
使 用 搜索 引擎 缓 存 技术 可 以 加 快 用 户 啊 应 速度 并 节省 计算 资 


源 。 
ae ee eee ie 0 
缓存 存储 对 象 主要 包括 网 页 搜索 结果 及 查询 词 对 应 的 倒 排列 


F o 
” 缓存 系统 可 以 有 多 层级 结构 。 
” 缓存 淘汰 策略 方法 众多 ， 从 宏观 角度 ， 可 以 将 其 分 为 动态 策略 
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第 12 章 ”搜索 引擎 发 展 趋势 


“ 故 善 战 者 ， 求 之 于 势 ， 不 责 于 人 故 能 择 人 而 任 势 。 任 势 者 ， 其 战 人 
也 ， 如 转 木石 。 木 石 之 性 ， 安 则 静 ， 危 则 动 ， 方 则 止 ， 圆 则 行 。 故 善 
战 人 之 势 ， 如 转 圆 石 于 千 仍 之 山 者 ， 势 也 。” 


Ə 《孙子 兵法 . 兵 势 第 五 》 


前 述 章 世 讲 解 了 搜索 引擎 相关 的 核心 技术 ， 搜 索引 擎 的 快速 发 展 
也 仅 是 最 近 15 年 发 生 的 ， 这 与 互联 网 的 发 展 趋势 密切 相关 。 最 近 几 
年 ， 互 联网 在 经 过 了 Web 2.0 的 市 场 培育 阶段 后 ， 迎 来 了 以 互联 网 用 户 
的 个 性 化 和 社交 化 为 中 心 的 趋势 。 同 时 ， 移 动 设 备 的 逐渐 流行 及 与 上 
述 两 大 趋势 的 融合 ， 促 生 了 很 多 新 型 应 用 ， 为 了 迎接 和 顺应 这 种 趋 
势 ， 对 于 搜索 引擎 来 说 ， 也 产生 了 新 的 挑战 。 

本 章 简略 叙述 搜索 引擎 为 了 应 对 当前 互联 网 发 展 潮 流 ， 所 体现 出 
的 一 些 新 兴 领 域 或 者 发 展 重点 。 这 些 技术 领域 很 多 并 不 成 熟 ， 正 在 快 
速 发 展 之 中 ， 所 以 本 章 并 不 详 述 其 技术 细 市 ， 对 于 每 个 趋势 ， 大 致 讲 
解 其 特点 及 基本 技术 思路 。 对 于 行业 发 展 趋势 ， 不 同人 观点 杀 异 ， 本 
章 所 述 这 些 观点 属 作 者 一 家 之 言 ， 仅 供 读者 参考 。 


12.1 个 性 化 搜索 


互联 网 的 发 展 已 经 进入 了 痢 的 阶段 ， 即 以 用 户 为 中 心 的 阶段 。 如 
何 通过 用 户 的 网 上 行为 建立 用 户 的 个 人 模型 ， 并 基于 此 ， 提 供 精 准 的 
个 性 化 服务 成 为 各 种 研究 的 重点 。 搜 索引 擎 也 不 例外 ， 个 性 化 搜索 即 
征 为 了 解决 这 个 问题 而 提出 的 技术 领域 。 

对 于 搜索 引擎 用 户 来 说 ， 由 于 其 个 人 兴趣 不 同 ， 即 使 站 同一 个 碍 
询 词 ， 也 可 能 其 搜索 意图 迎 异 。 比 如 用 户 发 出 查询 “Ajax”， 如 采 这 个 用 
已 古 计算 机 工程 人 员 ， 那 么 很 有 可 能 希望 查找 的 是 技术 资料 ， 而 如 来 
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即使 是 相同 的 查询 词 ， 如 何 为 不 同 的 用 户 提 供 个 性 化 的 搜索 结果 ， 成 
为 衡量 搜索 引擎 搜索 质量 非常 重要 的 标准 。 

从 技术 角度 看 ， 个 性 化 搜索 任务 主要 面临 两 个 问题 ， 如 何 建 立 用 
尸 的 个 人 兴趣 模型 ? 在 搜索 引擎 里 如 何 使 用 这 种 个 人 兴趣 模型 ? 


个 性 化 搜索 的 核心 是 根据 用 户 的 网 络 行为 ， 建 立 一 套 准 确 的 个 人 
兴趣 模型 。 图 12-1 是 一 种 比较 理想 化 的 用 户 建 模 方 式 ， 即 全 面 收 集 与 用 
户 相关 的 信息 源 ， 包 括 用 户 搜索 历史 及 点 击 记 录 ， 用 户 浏览 过 的 网 
页 、 用 户 E-mail 信 息 、 用 户 所 收藏 的 信息 及 用 户 发 布 的 信息 比如 博客 、 
微 博 等 内 容 。 在 此 基础 上 建立 用 户 兴趣 模型 ， 用 户 兴趣 模型 的 表达 方 
式 也 有 很 多 种 选择 ， 比 较 间 见 的 是 从 信息 源 抽取 出 的 关键 词 及 其 权 
重 ， 也 可 以 将 关键 词 映 射 到 语义 层面 的 本 体 结构 ， 或 者 羡 浏 斋 文 档 形 
成 的 层级 分 类 结构 。 不 论 采 取 哪 种 方式 ， 都 通过 以 上 手段 建立 了 能 够 
代表 用 户 长 期 和 短期 兴趣 的 用 户 模型 。 
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图 12-1 一 种 比较 理想 化 的 用 户 建 模 方式 


在 建 好 用 户 模型 后 ， 对 于 搜索 引擎 来 说 ， 如 何 使 用 这 个 用 户 模型 
也 征 需 要 考虑 的 问题 ， 从 目前 的 研究 来 看 ， 一 般 有 两 种 不 同 的 使 用 方 
式 : 一 种 比较 常见 的 方式 是 对 初次 搜索 结果 重 排序 ， 即 利用 用 户 当 前 
的 查询 词 获取 排 在 前 列 的 搜索 结 来 ， 之 后 根据 用 户 模 型 对 这 些 前 列 搜 
索 结 果 重 新 排序 ， 排 序 原则 是 与 用 户 个 人 兴趣 越 匹 配 的 内 容 排名 越 靠 
前 ; 另外 一 种 方式 是 对 用 户 当 前 的 查询 词 进行 直接 扩展 ， 即 从 用 户 兴 
趣 模型 里 找 出 与 当前 查询 词 密切 相关 的 词汇 ， 之 后 将 用 户 查 询 改 写 为 
扩展 的 查询 ， 使 用 搜索 引 敬 查找 结果 ， 这 样 对 于 不 同 的 用 户 ， 即 使 是 
输入 相同 的 查询 词 ， 也 会 获得 不 同 的 搜索 结 末 。 


为 不 同 用 户 提 供 个 性 化 的 搜索 结果 ， 这 必然 是 搜索 引擎 总 的 发 展 
趋势 ， 但 是 现 有 技术 方法 也 存在 一 些 问题 。 站 先是 用 户 的 隐私 问题 ， 
为 了 获取 精准 的 用 户 兴 趣 模型 ， 束 需要 多 方面 收集 用 户 信 息 ， 而 这 很 
呆 能 骏 露 用 户 隐私 。 男 外 一 点 ， 用 户 的 兴趣 是 不 断 变 化 的 ， 而 如 来 太 
依赖 历史 信息 ， 可 能 无 法 反映 用 户 兴 趣 的 转移 和 变化 。 


12.2 ”社会 化 搜索 


随 着 Facebook 的 逐日 流行 ， 社 交 网 络 平台 和 相关 应 用 占据 了 互联 
网 的 主流 (参见 图 12-2) 。 社 交 网 络 平台 强调 用 户 之 间 的 联系 和 交互 ， 
这 对 传统 的 搜索 技术 提出 了 新 的 挑战 。 
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图 12-2 社交 网 络 平台 
传统 搜索 技术 强调 搜索 结果 和 用 户 需求 的 相关 性 ， 社 会 化 搜索 除 
了 相关 性 外 ， 还 额外 增加 了 一 个 维度 ， 即 搜索 结果 的 可 信赖 性 。 对 于 
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网 络 内 其 他 用 户 发 布 的 信息 、 点 评 的 评论 或 者 验证 过 的 信息 则 更 可 依 
赖 ， 这 是 与 用 户 的 心理 密切 相关 的 。 社 会 化 搜索 即 结合 了 这 种 相关 性 
和 可 依赖 性 ， 为 用 户 提供 更 准确 、 更 值得 信任 的 搜索 结果 。 

社会 化 搜索 的 本 质 是 信息 过 滤 与 推荐 ， 即 对 用 户 的 疑问 ， 社 会 化 
搜索 系统 推荐 合适 的 人 来 回答 用 户 疑问 ， 或 者 通过 社交 关系 过 滤 掉 不 
可 信赖 内 容 ， 推 荐 可 信赖 内 容 ， 图 12-3 是 社会 化 搜索 整体 流程 示意 图 。 
根据 其 他 用 户 和 提问 者 的 关系 ， 社 会 化 搜索 系统 重点 关注 4 类 关系 : 直 
接 有 社交 联系 的 成 员 ， 比 如 熟人 或 者 朋友 ;， 有 相同 兴趣 的 成 员 ， 用 户 
所 加 入 网 络 社区 的 成 员 ， 领 域 专 家 。 直 接 具 有 社交 联系 的 成 员 对 搜索 
者 具有 直接 影响 力 ， 比 如 购物 搜索 时 对 产品 品牌 的 评价 ， 有 相同 兴趣 
的 成 员 则 形成 了 有 效 的 信息 过 滤 者 或 者 推荐 者 ， 搜 索 者 所 在 社区 的 成 
员 从 本 质 上 讲 也 是 有 相同 兴趣 的 成 员 ， 对 于 搜索 者 的 问题 能 够 形成 有 
效 的 信息 过 滤 和 推荐 ， 而 领域 专家 则 对 问题 的 解答 具有 权威 性 。 通 过 
结合 或 者 分 别 使 用 以 上 4 类 社区 成 员 的 信息 ， 社 会 化 搜索 系统 可 以 给 搜 
索 者 提供 合适 的 回答 者 或 者 值得 信赖 的 信息 。 
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相似 兴趣 社区 成 员 领域 专家 
图 12-3 ”社会 化 搜索 整体 流程 示意 图 


社会 化 搜索 从 其 性 质 上 讲 ， 和 个 性 化 搜索 是 密 不 可 分 的 ， 因 为 用 
户 的 社会 关系 其 实 也 是 个 性 化 信息 的 一 个 组 成 部 分 。 社 会 化 搜索 将 搜 
索 维 度 从 信息 维 扩展 到 关系 维 ， 丰 富 了 信息 源 ， 对 于 获得 更 准确 的 搜 
索 结 果 帮 助 很 大 ， 具 有 广阔 的 发 展 空间 。 这 个 领域 方兴未艾 ， 无 论 是 
商业 公司 还 是 研究 机 构 ， 对 于 这 个 领域 还 处 于 探索 阶段 。 


12.3 ”实时 搜索 


随 着 Twitter、 微 博 等 提供 微 信 息 发 布 的 个 人 媒体 平台 逐步 兴起 ， 对 
搜索 引 敬 的 实时 性 要 求 日 益 提 高 。 微 博 平 台 和 传统 的 信息 平台 比如 网 
页 、 博 客 、 痢 闻 等 相 比 ， 有 其 特殊 性 。 其 中 一 个 突出 的 特点 是 时 效 性 
强 ， 越 来 越 多 突 发 事件 的 首次 发 布 出 现在 微 博 平 台 上 ， 比 如 某 地 地 震 
或 者 社会 事件 ， 这 是 有 其 必然 性 的 。 

实时 搜索 与 传统 的 网 页 搜索 有 很 大 差异 。 实 时 搜索 的 核心 强 
调 “ 快 "， 即 用 户 发 布 的 信息 能 够 第 一 时 间 被 搜索 引擎 发 现 、 索 引 并 搜 
索 到 。 传 统 搜 索引 擎 在 实现 机 制 上 很 难 达到 这 一 点 ， 所 以 实时 搜索 在 
搜索 引擎 的 爬虫 、 索 引 系 统 和 搜索 结果 排序 方面 都 有 自己 独 有 的 特点 


(参考 图 12-4) 。 
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图 12-4 ”实时 搜索 系统 


对 于 Twitter 或 者 新 浪 微 博 这 种 信息 平台 来 说 ， 信 息 的 快速 获取 本 身 
不 存在 问题 。 而 对 于 搜索 引 警 服务 公司 来 说 ， 如 何 能 够 快速 全 面 地 获 
取 微 博 数据 就 成 了 严重 的 挑战 ， 目 前 的 解决 方案 大 致 有 两 种 。 一 种 是 
与 微 博 平台 合作 ， 由 信息 平台 将 最 新 的 信息 实时 推送 给 搜索 引擎 。 另 
外 一 种 是 由 把 虫 实时 抓 取 ， 这 里 面 有 若干 技术 挑战 ， 首 先 ， 微 博 平台 
作为 个 人 信息 发 布 平台 ， 人 往往 需要 用 户 登 录 使 用 ， 这 对 于 疏 虫 来 说 就 
形成 了 第 1 道 屏障 ， 另 外 ， 即 使 让 虫 能 够 登录 微 博 系统 ， 如 何 全 面 获 取 
信息 ， 难 度 也 很 大 ， 微 博 用 户 以 亿 计 ， 而 且 微 博 内 容 短 小 ， 同 时 不 像 
网 页 可 以 通过 链接 传递 逐步 发 现 更 多 内 容 ， 如 何 保证 信息 全 面 性 成 为 
第 2 道 屏障 ， 尽 管 可 以 通过 用 户 关注 关系 获得 部 分 微 博 数据 ， 其 全 面 性 
是 难以 保障 的 ， 如 果 疏 虫 无 法 保证 信息 的 全 面 性 ， 那 么 实时 性 也 是 无 
法 满足 的 ， 因 为 很 可 能 最 新 发 布 的 消息 公 忠 根本 抓 取 不 到 。 从 这 几 个 
方面 讲 ， 微 博 平 台 对 于 搜索 引擎 来 说 是 有 其 天 然 封闭 性 的 。Google 目 
前 通过 与 Twitter 合作 的 方式 获取 微 博 数据 。 

在 索引 构建 方面 ， 实 时 搜索 要 求 第 一 时 间 对 新 发 布 的 内 容 进行 索 
引 ， 即 用 户 发 布 则 信息 可 搜 。 这 对 传统 的 索引 机 制 提出 了 挑战 ， 要 求 
索引 系统 支持 在 建立 索引 的 过 程 中 ， 也 能 够 提供 搜索 服务 。 

在 搜索 结果 排序 方面 ， 实 时 搜索 也 有 其 特点 ， 除 了 内 容 相关 性 要 
求 外 ， 时 间 因 素 是 搜索 排序 中 首要 的 考虑 因素 ， 很 多 实时 搜索 系统 默 
认 按 照 时 间 顺 序 排序 ， 即 最 新 发 布 的 信息 排 在 前 列 。 

对 于 一 个 完善 的 实时 搜索 排序 算法 来 说 ， 一 般 重点 考虑 以 下 4 方面 
的 因子 。 

内 容 相 关 性 : 信息 是 否 与 用 户 查 询 主题 相关 。 

. 时 效 性 ;发布 时 间 越 近 的 信息 ， 其 搜索 排名 应 该 越 靠 前 。 

| 信息 重要 性 ， 越 重要 或 者 越 流行 的 信息 排名 应 该 越 靠 前 ， 作 为 
重要 性 或 者 流行 性 的 判断 指标 有 很 多 ， 比 如 信息 发 布 来 源 是 否 可 千 
( 微 博 中 信息 发 布 者 的 重要 性 ) 、 被 转发 次 数 多 少 、 被 评论 次 数 多 少 
等 都 可 以 作为 判断 指标 。 

， 社交 性 :一 般 来 说 ， 微 博 平台 同时 也 是 一 个 社交 平台 ， 微 博 用 
户 的 关注 人 和 被 关注 人 体现 了 这 种 社交 性 。 排 序 时 ， 应 该 将 搜索 结 
的 社交 性 体现 出 来 ， 即 用 户 关注 人 发 布 的 信息 排名 应 该 靠 前 。 

综 上 所 述 ， 实 时 搜索 在 信息 获取 、 信 息 索 引 和 排序 机 制 方面 都 有 
其 特性 ， 以 此 和 传统 搜索 引擎 做 出 区 分 ， 而 随 着 突 发 事件 越 来 越 多 在 
这 种 平台 发 布 ， 其 重要 性 不 言 而 喻 。 


12.4 ”移动 搜索 


随 着 智能 手机 的 快速 发 展 ， 基 于 手机 等 移动 设备 的 搜索 日 益 流 
行 。 移 动 设备 对 搜索 应 用 的 需求 与 PC 等 不 同 ， 主 要 源 于 其 与 PC 相 比 资 
源 的 有 限 性 ， 比 如 手机 的 屏幕 较 小 ， 可 显示 区 域 不 多 ; 手机 存储 和 计 

资源 能 力 较 弱 ， 手机 设备 打开 网 页 的 速度 较 慢 ， 手 机 输入 较为 烦 下 
等 。 所 以 针对 移动 设备 的 搜索 需要 根据 手机 等 移动 设备 自身 的 特点 ， 
开发 适合 其 资源 和 设备 的 搜索 应 用 。 

使 用 手机 搜索 与 PC 搜索 一 样 ， 由 3 个 步骤 组 成 : 用户 输入 查询 ， 搜 
索引 擎 提供 搜索 结果 信息 ， 用 户 点 击 打开 感 兴趣 的 页 面 。 考 虑 到 移动 
限 ， 在 这 3 个 步骤 都 要 考虑 如 何 增加 用 户 的 体验 ， 如 图 12- 
5 所 示 。 
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图 12-5 移动 搜索 3 步 又 


对 于 用 户 输入 查询 这 一 环节 来 说 ， 因 为 输入 难度 比 桌面 设备 大 ， 
不 够 便捷 ， 包 括 移动 设备 中 的 中 文 输入 法 由 于 资源 所 限 、 知 能 性 不 
足 ， 所 以 对 于 移动 搜索 来 说 ， 如 何 让 用 户 输入 更 便捷 是 最 主要 的 问 
题 。 在 移动 搜索 环境 下 ， 用 户 查询 词 的 自动 补 全 和 相关 搜索 提示 等 搜 
索 功能 更 重要 ， 通 过 这 种 辅助 手段 可 以 有 效 减少 用 户 的 输入 次 数 ， 增 
加 用 户 体验 。 另 外 ， 也 可 以 通过 非 文 本 输入 ， 比 如 语音 识别 输入 的 方 
式 来 减少 用 户 输 入 的 难度 。 

由 于 移动 设备 屏幕 较 小 ， 如 何在 这 么 小 的 展示 面积 里 让 用 户 更 
快 、 更 直接 地 找到 答案 至 关 重 要 。 所 以 ， 移 动 设备 搜索 对 搜索 的 精度 
及 搜索 结果 的 展示 方式 要 求 更 高 。 一 般 会 考虑 尽 可 能 将 搜索 的 答案 展 


示 在 搜索 结果 的 摘要 区 域 ， 或 者 提供 网 页 内 容 更 细致 准确 的 摘要 信 
思 ， 这 样 让 用 户 从 搜索 结 朱 展示 页 面 束 可 以 直接 获取 答案 ， 免 除 用 户 
下 载 页 面 和 在 页 面 内 容 里 查找 的 过 程 。 

如 采用 户 在 搜索 结果 的 摘要 区 域 无 法 获得 答案 ， 就 必须 点 击 网 
页 ， 碍 看 页 面 内 容 ， 以 搜索 引擎 目前 的 搜索 精度 来 看 ， 这 步 多 多 少 少 
是 难免 的 。 既 然 如 此 ， 目 标 网 页 往往 内 容 很 多 ， 包 售 导 航 栏 、 广 告 
栏 、 大 量 图 片 等 既 消 耗 市 蜗 资 源 ， 又 与 用 户 搜索 内 容 无 天 的 信息 ， 所 
以 在 这 一 步 又 ， 移 动 搜 索 的 问题 束 转 化 成 了 如 何 提 供给 用 户 页 面 中 最 
重要 、 最 相关 的 部 分 。 搜 索 系统 可 以 为 用 户 提供 加 工 过 的 目标 页 面 ， 
通过 分 析 目 标 网 页 的 结构 ， 自 动 提取 重要 内 容 ， 只 将 这 部 分 内 容 展 示 
给 用 户 ， 有 效 增加 用 户 体 验 。 

智能 手机 的 快速 普及 只 是 潮流 的 开头 ， 以 后 一 定 会 更 加 快速 地 发 
展 ， 所 以 移动 搜索 的 市 场 占有 率 会 逐步 上 升 ， 而 其 最 核心 的 要 求 是 如 
何在 资源 有 限 的 情况 下 增加 用 户 体验 。 


12.5 ”地 理 位 置 感 知 搜索 


随 看 和 窜 能 手机 价格 的 下 降 和 大 众 化 ， 智 能 手机 上 服务 也 日 益 流 行 ， 
基于 地 理 位置 感 知 的 搜索 是 其 中 的 应 用 之 一 。 目 前 很 多 智能 手机 不 仅 
能 够 获取 用 户 所 在 位 置 的 GPS 信息 ， 而 且 可 以 通过 陀螺 仪 等 手机 内 部 设 
备 感知 用 户 的 朝向 ， 基 于 这 种 信息 ， 可 以 为 用 户 提 供 准确 的 地 理 感知 
信息 及 相关 搜索 服务 。 

我 们 可 以 设想 一 种 应 用 场景 (参考 图 12-6) ， 一 个 旅游 爱好 者 在 英 
国旅 游 ， 当 他 走 到 “大 本 钟 * 前 面 时 ， 地 理 位 置 感 知 搜索 可 以 目 动 推送 
给 用 户 关 于 “大 本 钟 ? 的 相关 知识 ， 比 如 建造 历史 、 设 计 者 、 有 关 逸 闻 
趣事 等 丰富 的 相关 信息 ， 这 束 是 一 种 典型 的 地 理 位 置 感知 搜索 应 用 ， 
类 似 的 应 用 在 不 同 的 具体 领域 还 有 很 多 。 
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图 12-6 旅游 地 理 位 置 感知 搜索 


图 12-7 是 一 个 地 理 位 置 感知 搜索 系统 的 名 构图 ， 系 统 主要 由 3 个 
分 构成 ， 首 先 需 要 构建 地 理 信息 数据 ， 用 来 存储 某 地 的 地 理 信 息 ， 
如 街道 名 称 “建筑 移 名 称 及 相对 位 置 等 信息 这些 数据 是 此 雪 应 用 的 
基础 数据 。 地 理 位 置 感知 模 决 通过 用 放手 机 ， 可 以 获取 用 户 当 前 所 处 
位 置 及 朝向 等 位 置信 息 ， 通 过 和 地 理 信 息 相 互 比较 和 推理 ， 获 知 用 户 
此 时 面 对 的 是 哪个 建筑 物 ， 之 后 根据 应 用 的 不 同 ， 从 应 用 相关 领域 知 
识 中 提取 与 这 个 建筑 物 相关 的 知识 ， 并 显示 给 用 户 。 
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图 12-7 地 理 位 置 感知 搜索 系统 的 构架 图 


地 理 位 置 感知 搜索 可 以 看 做 是 增强 现实 技术 在 搜索 领域 的 具体 应 
用 ， 随 着 智能 手机 功能 的 丰富 化 ， 此 类 应 用 必 将 大 行 其 道 。 


12.6” 跨 语 言 搜索 


随 着 全 球 化 进程 席卷 全 球 ， 互 联网 所 提供 的 信息 资源 不 再 集中 于 
英语 等 少数 几 种 语言 上 。 另 一 方面 ， 瑞 语 非 母 语 的 互联 网 用 户 比 重 也 
在 快速 增长 ， 对 于 大 多 数 不 精 通 外 语 的 用 户 而 言 ， 熟 练 地 使 用 外 语 查 
询 所 需要 的 相关 的 其 他 语种 信息 较为 困难 ， 而 使 用 母语 查询 条 件 搜索 
出 相关 的 外 语 信 息 ， 再 借助 于 辅助 翻译 工具 浏 宽 信 息 则 相对 较为 容 
易 。 因 此 上 自动 将 用 户 的 母语 查询 条 件 翻译 为 相应 的 其 他 语种 查询 条 
件 ， 再 使 用 搜索 引擎 查找 出 所 需 的 信息 ， 是 方便 用 户 获 取 网 上 资源 的 
有 效 途 径 。 跨 语言 搜索 (CLIR: Cross-Language Information Retrieval) 
研究 的 正 是 这 方面 的 内 容 ， 它 是 信息 检索 研究 为 了 元 服 语言 障碍 而 发 
展 出 来 的 一 个 分 文 。 随 春 互 联网 的 车 劲 发 展 ， 赋 究 开 发 优秀 的 路 语言 
信息 检索 系统 显得 日 益 迫 切 。 

Google 目 前 已 经 提供 多 种 语言 之 间 的 跨 语 言 搜索 ， 图 12-8 是 一 个 具 
体 实例 ， 当 用 中 文 搜 索 “ 麻 省 理工 ”的 时 候 ， 排 在 第 1 位 的 是 麻 省 理工 学 
院 的 英文 主页 。 同 时 Google 也 在 大 力 发 展 机 需 翻 译 技 术 ， 当 用 户 搜 索 
到 外 了 文 网 页 后 ， 可 以 使 用 机 器 翻译 拉 术 将 网 页 翻译 为 用 户 的 母语 ， 尽 


管 目前 翻译 质量 不 算 非 党 理想， 但 是 用 户 可 以 获知 网 页 的 主要 内 容 ， 
这 样 束 有 效 地 增加 了 搜索 范 围 。 
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图 12-8 Google 的 路 语言 搜索 功能 


一 般 来 说 ， 解 决 用 户 查 询 与 查询 文档 集 之 间 的 语言 障碍 有 3 种 不 同 
的 技术 路 线 ， 既 可 以 将 查询 翻译 成 与 查询 文档 集 相同 的 语言 ， 也 可 以 
将 查询 文档 集 翻译 成 与 查询 相同 的 语言 ， 还 可 以 同时 将 两 者 映射 到 与 
具体 语言 无 天 的 语义 空间 。 由 于 得 询 文档 集 一 般 都 很 天， 采取 翻译 得 
询 文 档 集 到 用 户 查 询 语言 的 技术 路 线 代 价 太 高 ， 所 以 一 般 的 研究 集中 
在 其 他 两 种 扩 术 路 线 上 ， 其 中 最 音 见 的 还 是 将 用 户 和 查询 翻 译 成 文档 集 
的 语言 ， 比 如 用 户 输入 中 文 的 查询 “ 厅 省 理工 ”>， 跨 语言 搜索 系统 将 这 
人 然后 去 英文 的 网 页 里 搜索 ， 获 得 麻 省 理工 学 院 的 首 
D 


~ 


如 何 将 中 文 的 用 户 查 询 翻译 为 英文 的 查询 ” 目前 主流 的 方法 有 3 
fP: ba 双语 词典 查询 方法 及 双语 语 料 挖掘 方法 (参考 图 
12-9) 。 
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图 12-9 ”将 中 文 的 用 户 查询 翻译 为 英文 的 查询 


机 器 翻译 方法 非常 直观 ， 即 利用 现成 的 机 器 翻译 系统 直接 将 中 文 
的 用 户 查询 翻译 为 英文 的 查询 。 但 是 这 个 方法 有 个 缺点 ， 一 般 用 户 查 
询 较 短 ， 不 像 文章 里 的 语句 ， 没 有 查询 词 的 上 下 文 信息 ， 所 以 翻译 效 
果 一 般 不 能 保证 。 

双语 词典 查询 方法 思路 也 很 简单 ， 对 于 中 文 查询 ， 直 接 查 找 中 英 
双语 词典 ， 将 可 能 的 英文 翻译 找 出 ， 问 题 的 关键 是 一 个 中 文 查询 词 往 
往 有 多 个 对 应 的 翻译 项 ， 系 统 需 要 判断 哪个 翻译 项 才 是 正确 的 。 另 
外 ， 双 语词 典 规 模 往往 不 够 大 ， 很 多 用 户 查 询 可 能 无 法 在 双语 词典 里 
找到 ， 尤 其 是 人 名 、 地 名 这 些 比较 灵活 使 用 的 命名 实体 ， 所 以 这 种 方 
法 需要 解决 以 上 的 两 个 问题 。 

双语 语 料 挖掘 方法 与 上 面 两 种 方法 思路 不 同 ， 是 通过 准备 好 的 双 
语 语 料 ， 比 如 报道 相同 事件 的 中 文 和 英文 新 闻 ， 然 后 在 这 种 双语 语 料 
基础 上 计算 某 个 查询 词 翻译 为 另外 一 种 语言 查询 词 的 概率 ， 选 择 翻译 
概率 最 高 的 作为 查询 词 翻译 的 结果 。 这 种 方法 的 缺点 主要 是 获取 大 规 
模 的 双语 语 料 有 较 大 难度 。 

对 于 一 个 全 球 性 的 搜索 引擎 来 说 ， 具 备 跨 语言 搜索 功能 是 必然 的 
发 展 趋势 ， 而 其 基本 技术 路 线 一 般 会 采用 查询 翻译 加 上 网 页 的 机 器 番 


译 这 两 种 技术 手段 。 
12.7 多 媒体 搜索 


目前 主流 搜索 引擎 还 是 基于 文字 的 ， 即 使 是 常用 的 图 片 搜索 和 视 
频 搜 索 ， 用 户 输 入 查询 也 基本 都 是 文本 方式 的 ， 在 搜索 引擎 内 部 也 是 
通过 图 片 标题 和 页 面 的 上 下 文 等 文本 进行 匹配 的 (参考 图 12-10) 。 这 
种 基于 文本 来 搜索 图 片 、 首 频 、 视 频 等 多 媒体 信息 的 方法 有 其 天 然 缺 
陷 ， 即 用 户 查 询 和 目标 媒体 的 巨大 差异 性 。 多 媒体 搜索 技术 则 弥补 查 
询 和 搜索 目标 之 间 的 差异 鸿沟 ， 使 得 用 户 可 以 用 图 片 等 多 媒体 内 容 作 
为 查询 输入 ， 以 获得 更 高 的 搜索 准确 性 。 
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图 12-10 ”基于 文字 的 图 片 搜索 


多 媒体 形式 除了 文字 外 ， 主 要 包括 图 片 、 音 频 和 视频 。 多 媒体 搜 
索 比 纯 文 本 搜索 从 技术 上 要 复杂 ， 一 般 多 媒体 搜索 包含 4 个 主要 步 又: 
多 媒体 特征 提取 、 多 媒体 数据 流 分 割 、 多 媒体 数据 分 类 和 多 媒体 数据 
索引 搜索 (参考 图 12-11) 。 


多 媒体 特征 抽取 从 原始 的 图 片 、 首 频 或 者 视频 中 抽取 出 能 够 代表 
其 内 容 的 特征 ， 文 本 形式 一 般 是 以 关键 词 作为 特征 的 ， 而 多 媒体 特征 
与 此 不 同 ， 比 如 图 片 和 视频 中 的 视觉 特征 《色彩 、 纹 理 等 ) ， 音 频 文 
件 中 的 首 调 、 音 高 等 信息 。 这 样 将 原始 的 多 媒体 信息 转换 为 内 部 特征 
表示 ， 供 后 续 步 又 使 用 。 

对 于 视频 和 音频 流 来 说 ， 还 需要 进行 数据 流 分 割 工作 ， 这 两 种 媒 
体 具 有 时 间 维 度 信 息 ， 通 过 分 割 ， 将 连续 发 生 的 相同 或 者 相近 的 内 容 
E a a 
IR ” 

对 于 不 同 的 场景 ， 可 以 对 场景 分 类 ， 比 如 新 闻 播 报 的 场景 或 者 爆 
炸 场 景 等 ， 通 过 这 一 步 又， 等 于 给 每 个 场景 增加 了 语义 标签 。 
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段 ， 通 过 相似 度 计算 ， 找 出 和 用 户 查 询 相近 的 多 媒体 内 容 。 


12.8 ”情境 搜索 


严格 来 说 ， 情 境 搜索 并 非 一 项 技术 ， 而 是 一 种 融合 了 多 项 技术 的 
产品 形态 。 之 前 介绍 的 个 性 化 搜索 、 社 会 化 搜索 、 地 点 感知 搜索 等 各 
项 技术 都 是 文 持 情 境 搜 索 这 一 产品 形态 的 基础 。 目 前 包括 Google 公 司 
等 商业 搜索 公司 都 在 大 力 提倡 这 个 概念 。 

所 谓 情境 搜索 ， 就 是 能 够 感 扼 人 及 人 所 处 的 环境 ， 针 对 “此 时 此 地 
此 人 ”来 建立 模型 ， 试 图 理解 用 户 查询 的 目的 ， 根 本 目标 还 是 要 理解 人 
的 信息 需求 。 比 如 某 个 用 户 在 苹果 专卖 店 附近 发 出 “苹果 ”这 个 搜索 请 


求 ， 基 于 地 点 感知 及 用 户 的 个 性 化 模型 ， 搜 索引 擎 更 有 可 能 认为 这 个 
查询 是 针对 苹果 公司 的 产品 ， 而 非 对 水 果 的 需求 。 

图 12-12 给 出 了 情境 搜索 示意 图 ， 搜 索 系统 根据 用 户 过 去 的 查询 及 
点 击 记 录 ， 或 者 是 IM 等 信息 ， 可 以 对 用 户 的 兴趣 、 身 份 等 建立 一 份 体 
现 个 性 化 信息 的 用 户 模型 。 同 时 ， 环 境 感知 模型 可 以 获取 用 户 发 出 碍 
询 的 时 间 、 地 点 、 周 边 环境 等 情景 信息 。 在 众多 与 用 户 “ 此 时 此 地 此 
人 ”的 相关 信息 的 帮助 下 ， 对 用 户 发 出 的 查询 做 出 更 加 合理 的 解释 ， 更 
清楚 地 了 解 用 户 的 信息 需求 。 总 体 而 言 ， 情 境 搜索 需要 的 各 项 技术 还 
不 够 成 熟 ， 这 类 产品 还 有 相当 大 的 发 展 空间 和 潜力 。 


图 12-12 ”情境 搜索 示意 图 
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尊敬 的 读者 : 
感谢 您 选择 我 们 出 版 的 图 书 ， 您 的 文 持 与 信任 是 我 们 持续 上 升 的 
动力 。 为 了 使 您 能 通过 本 书 更 透彻 地 了 解 相 关 领 域 ， 更 深入 的 学 习 相 
天 技术 ， 我 们 将 特别 为 您 提供 一 系列 后 续 的 服务 ， 包 括 : 
1. 提供 本 书 的 修订 和 升级 内 容 、 相 关 配 套 资料 ; 
2. 本 书 作 者 的 见面 会 信息 或 网 络 视频 的 沟通 活动 ; 
3. 相关 领域 的 培训 优惠 等 。 
您 可 以 任意 选择 以 下 四 种 方式 之 一 与 我 们 联系 ， 我 们 都 将 记录 和 
保存 您 的 信息 ， 并 给 您 提供 不 定期 的 信息 反馈 。 
1. 在 线 提交 
登录 www.broadview.com.cn/14865 ， 填 写本 书 的 读者 调 
查 表 。 
2. 电子 邮件 
您 可 以 发 邮件 至 jsj@phei.com.cn 或 
editor@broadview.com.cn ° 
3. 读者 电话 
您 可 以 直接 拨打 我 们 的 读者 服务 电话 : 010-88254369 ° 


4. 信件 

您 可 以 写 信 至 如 下 地 址 : 北京 万 寿 路 173 信 箱 博 文 视点 ， 
邮编 : 100036 ° 

您 还 可 以 告诉 我 们 更 多 有 关 您 个 人 的 情况 ， 及 您 对 本 书 的 意见 、 
评论 等 ， 内 容 可 以 包括 : 

(1) 您 的 姓名 、 职 业 、 您 关注 的 领域 、 您 的 电话 、E-mail 地 址 或 
通信 地 址 ; 

(2) 您 了 解 新 书信 息 的 途径 、 影 响 您 购买 图 书 的 因素 ; 

(3) 您 对 本 书 的 意见 、 您 读 过 的 同 领 域 的 图 书 、 您 还 希望 增加 的 
图 书 、 您 希望 参加 的 培训 等 。 


如 果 您 在 后 期 想 停 止 接收 后 续 资 讯 ， 只 需 编写 邮件 “ 退 订 十 需 进 订 
的 邮箱 地 址 ”发送 至 邮箱 : market@broadview.com.cn 即 可 取消 服务 。 


同时 ， 我 们 非常 欢迎 您 为 本 书 撰写 书评 ， 将 您 的 切身 感 
受 变 成 文字 与 广大 书 友 共享 。 我 们 将 挑选 特别 优秀 的 作品 转载 
在 我 们 的 网 站 (www.broadview.com.cn) E, 或 推荐 至 
CSDN.NET 等 专业 网 站 上 发 表 ， 被 发 表 的 书评 的 作者 将 获得 价 
值 50 元 的 博文 视点 图 书 奖励 。 


更 多 人 信息， 请 关注 博文 视点 家 方 微 博 : 


http://t.sina.com.cn/broadviewbj ° 


我 们 期 待 您 的 消息 ! 
博文 视点 愿 与 所 有 爱 书 的 人 一 起 ， 共 同学 习 ， 共 同 进步 ! 


通信 地 址 : 北京 万 寿 路 173 信 箱 博文 视点 (100036) ”电话 : 
010-51260888 
E-mail: jsj@phei.com.cn, editor@broadview.com.cn 


www.phei.com.cn 
www.broadview.com.cn 
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